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你 现在 看 到 的 这 本 概率 书 ， 和 市 面 上 绝 大 部 分 的 概率 书籍 都 非常 不 同 . 

尽管 概率 论 在 工程 与 自然 科学 中 已 经 有 了 广泛 的 应 用 , 但 现 有 的 绝 大 部 分 概率 书 
籍 往往 沿用 数学 教材 的 经 典 方式 ， 即 从 定义 出 发 、 列 举重 要 结果 定理 证 明 ， 并 给 出 相 
关 例子 . 虽然 这 一 模式 极为 有 效 ， 但 是 数学 教材 中 的 例子 以 说 明 概 念 为 主 ， 鲜 少 阐 述 
概率 论 如 何在 实际 的 工程 问题 中 发 挥 作用 . 因此 ， 许 多 国内 外 EECS ( Electrical 
Engineering and Computer Science, 电子 工程 与 计算 机 科学 系 ) 的 同学 在 学 习 概率 论 的 
时 候 ， 除 了 觉得 好 玩 有 趣 之 外 ,往往 容易 感到 困惑 : 不 知道 自己 为 什么 需要 学 习 概 率 
论 ， 也 不 知道 概率 论 究竟 能 够 应 用 在 哪些 地 方 . 正 因 如 此 ， 不 少 同学 认为 概率 论 是 一 
门 只 有 做 学 术 研究 的 人 才 和 需要 的 课程 . 

本 书 在 内 容 编撰 上 另辟蹊径 ， 从 应 用 出 发 ， 通 过 精心 选取 EECS 领域 核心 方向 中 
的 几 个 基本 问题 , 深入浅出 却 不 失 系统 性 地 介绍 概率 论 的 基础 及 其 在 实际 问题 中 的 使 
用 . 这 其 中 包括 : 

(1) PageRank 与 马尔 可 夫 链 

(2) 网 络 多 路 复 用 与 大 数 定律 和 中 心 极限 定理 

(3) 数字 链 路 与 编码 和 假设 检验 

(4) 追踪 定位 与 最 小 方差 估计 和 卡尔 曼 滤波 带 

(5) 语音 识别 、 大 数据 与 隐 马 尔 可 夫 链 和 期 望 最 大 化 

(6) 路 线 规划 与 马尔 可 夫 决 策 问题 和 线性 二 次 型 高 斯 问题 

以 上 列举 的 应 用 问题 通常 很 少 与 书 中 涵盖 的 概率 论 知识 一 同 出 现 . 本 书 作者 这 样 
安排 ， 正 是 希望 通过 一 种 以 应 用 为 主 的 方式 ， 解 答 读 者 在 概率 论 学 习 过 程 中 对 其 实际 
效用 的 疑惑 ; 也 希望 通过 这 种 讲授 方式 ,使 读者 对 概率 论 的 重要 性 有 更 好 的 认识 ; 并 
且 和 希望 读者 在 学 习 工 作 中 遇 到 问题 时 ， 能 从 概率 论 的 角度 出 发 进行 思考 . 

本 书 作者 Jean Walrand 教授 在 加 州 大 学 伯克利 分 校 的 电子 计算 机 系 从 教 30 余年 ， 
是 计算 机 网 络 、 随 机 过 程 与 控制 研究 的 大 师 . 他 不 仅 在 概率 论 与 工程 研究 上 有 极 高 的 
造 讶 , 而 且 深 说 概率 工具 在 EECS 领域 中 应 用 的 关键 . 在 此 书 中 , Walrand 教授 无 疑 成 
功 地 将 这 两 者 进行 了 结合 . 
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建 模 与 分 析 多 年 并 曾 师 从 Walrand 教授 ， 但 在 翻译 的 过 程 中 ， 亦 不 时 被 作者 精彩 新 颖 
的 观点 与 讲解 打动 ， 受 益 匪 浅 . 译 者 希望 ， 译 本 也 能 为 读者 带 来 同样 的 感受 . 
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这 是 一 本 介绍 概率 论 在 电子 工程 和 计算 机 科学 领域 应 用 的 书 . 本 书 关注 一 些 具 有 
代表 性 并 用 到 了 大 量 概率 论 知识 的 重要 实际 科技 应 用 . 我 们 无 意 涵盖 所 有 的 应 用 ,一 
来 内 容 过 于 宽泛 ， 二 来 工程 量 过 于 浩大 . 

如 同 微 积分 和 离散 数学 一 样 , 掌握 概率 建 模 和 分 析 对 于 计算 机 科学 家 和 电子 工程 
师 来 说 至 关 重 要 . 由 于 这 些 科 学 家 和 工程 师 应 用 和 设计 的 复杂 系统 通常 在 动态 的 环境 中 
运作 ， 理 解 和 量化 不 确定 性 对 系统 产生 的 影响 已 成 为 系统 设计 过 程 中 极为 重要 的 一 环 . 

本 书 是 为 加 州 大 学 伯克利 分 校 电 子 工程 和 计算 机 科学 系 的 EECS126 概率 论 课程 
而 编写 的 . 该 课程 是 为 大 三 、 大 四 学 生 开设 的 进 阶 课程 . 这 门 课 的 学 生 大 多 已 选修 过 
基础 的 概率 论 课程 . 他 们 了 解 事件 、 概 率 、 条 件 概率 、 贝 叶 斯 公式 、 离 散 随机 变量 及 
期 望 等 概念 ， 并 且 对 和 矩阵 运算 有 基本 的 了 解 ( 这 些 概 念 在 附录 中 都 有 所 回顾 )， 这 些 
学 生 都 非常 聪明 、 勤 奋 并 对 复杂 的 新 知识 具有 很 大 兴趣 . 在 这 门 课程 上 ， 学 生 会 学 习 
并 了 解 马尔 可 夫 链 、 随 机 动态 规划 、 检 验 和 估计 等 知识 . 他 们 不 仅 能 直观 理解 这 些 概 
念 和 方法 ， 同 时 也 能 熟知 如 何 运用 它们 . 

目前 绝 大 部 分 概率 论 的 入 门 书籍 在 内 容 介绍 上 仍然 延 用 了 概率 空间 、 随 机 变量 、 
数学 期 望 、 检 验 、 估 计 和 马尔 可 夫 链 的 顺序 . 相 比 之 下 ,本 书 内 容 编排 的 一 大 特点 是 
以 应 用 作为 导 引 . 对 于 概率 论 中 的 每 一 个 知识 点 ， 本 书 均 以 一 个 电子 及 计算 机 领域 相 
应 的 重要 实际 应 用 作为 媒介 , 详细 讲述 该 知识 点 背后 的 理论 及 其 如 何在 应 用 中 发 挥 功 
用 . 我 们 认为 ， 阐述 理论 在 实际 应 用 中 功用 的 讲授 方式 能 让 人 们 更 容易 了 解 到 概率 论 
的 巨大 价值 .不仅 如 此 ， 本 书 同时 强调 让 学 生 独 立 应 用 Matlab 和 Simulink 数学 软件 
完成 对 课程 项 目的 仿真 和 计算 . 这 些 题 目 经 过 精心 设计 ， 旨 在 加 强 学 生 对 概念 的 直观 
理解 ， 并 为 其 日 后 进行 独立 探索 打 好 基础 . 除了 最 后 一 章 和 附录 之 外 ,本 书 中 其 余 的 
章节 均 分 为 A 和 B 两 部 分 . A 部 分 介绍 主要 的 概念 ， 而 B 部 分 则 涵盖 知识 点 中 更 为 
深奥 的 部 分 . 因此 ,本 书 的 一 种 使 用 方式 是 为 大 三 的 学 生 讲授 A 部 分 和 附录 中 的 内 容 ; 
另 一 种 授课 方式 是 开设 一 门 两 学 期 的 课程 ， 在 第 一 阶段 课程 中 讲授 A 部 分 , 将 B 部 
分 纳入 第 二 阶段 的 学 习 中 . 如 果 想 要 提升 课程 难度 , 也 可 以 在 一 门 课程 中 先 教授 A 部 
分 , 再 教授 B 部 分 . 按 章节 顺序 授课 也 不 失 为 一 种 不 错 的 选择 . 本 书 的 最 后 一 章 收 录 


了 一 些 前 沿 课题 ， 读 者 和 教师 可 以 有 选择 地 使 用 . 

附录 部 分 为 大 多 数 读者 提供 了 有 用 的 背景 知识 . 附录 A 回顾 了 概率 论 的 基本 概 
念 . 根据 学 生 背 景 知 识 的 不 同 ， 教 师 可 以 选择 从 附录 A 的 综述 讲 起 . 附录 B 复习 了 
一 些 线性 代数 的 基本 知识 ， 而 附录 C 提供 了 一 些 Matlab 的 实例 . 采用 Matlab 是 因为 
现在 许多 大 学 都 为 学 生 提 供 了 购买 Matlab 的 许可 . 即使 学 校 没 有 获得 授权 , 学 生 也 能 
负担 起 该 软件 的 学 生 版 . 学 生 通 过 在 Matlab 中 尝试 一 些 算法 并 模拟 一 些 系统 , 能 更 好 
地 理解 相关 知识 点 和 认 知 系统 的 具体 运作 方式 . 不 仅 如 此 ， 让 学 生 轻 松 实现 一 些 看 起 
来 复杂 的 算法 会 让 他 们 在 学 习 中 获得 更 多 的 成 就 感 和 乐趣 . 

书 中 的 理论 从 基于 未 知 量 的 模型 人 手 . 我 们 将 这 样 的 未 知 量 记 为 和 Y， 并 考虑 
一 个 能 用 于 计算 关于 函数 h(29) 期 望 值 5(1(2)) 的 模型 . 举例 来 说 , 对 可 表示 一 块 太阳 能 
电池 板 在 一 个 月 中 每 天 产生 的 能 量 ，h(%) 为 这 块 电池 板 一 个 月 产生 的 总 能 量 . 那么 ， 
E(h(%)) 就 是 电池 板 每 月 平均 产生 的 能 量 . 其 他 例子 还 包括 通信 网 络 中 的 平均 数据 包 延 
时 ， 数 据 中 心 完 成 一 件 工作 的 平均 耗 时 ， 等 等 . 

估计 ECO) 的 过 程 称 为 性 能 评估 . 在 许多 情况 下 , 在 需要 处 理 未 知 量 的 系统 中 都 
存在 一 些 参数 0. 人 们 可 以 通过 调节 这 些 参数 的 值 来 调整 系统 作业 .比如 说 ， 太 阳 能 
电池 板 的 朝向 可 以 进行 调整 ， 数 据 中 心 的 运作 也 能 调整 . 在 这 种 情况 下 ,我们 可 以 通 
过 将 系统 性 能 描述 成 未 知 量 和 和 可 变 参 数 9 的 函数 h(X,0) 来 衡量 参数 取 值 对 系统 的 
影响 . 如 此 一 来 , 优化 系统 这 一 问题 就 等 同 于 寻找 能 最 大 化 E(h(X,0)) 的 参数 值 0. 这 
个 问题 通常 并 不 简单 ， 尤 其 是 在 EC(h(X,0)) 没 有 解析 表达 式 时 .本 书 会 讲解 这 样 的 优 
化 问题 . 


Ne EC0) max EO) 
评估 优化 
在 许多 问题 中 ， 我 们 能 观测 到 Y, 但 是 希望 估计 未 被 观测 的 对 值 ， 举 个 例子 , 忒 
可 以 是 发 射 机 发 出 的 信号 , 而 了 是 接收 机 收 到 的 信号 . 根据 了 估计 站 值 的 问题 是 一 个 
推断 问题 . 这 方面 的 例子 包括 探测 问题 (附近 有 没有 火 源 ， 你 有 没有 感冒 ) 和 估计 问 
题 (发 出 GPS 信号 的 让 hone 在 哪里 ). 
y x 
推断 
最 后 , 有 一 类 问题 关注 基于 观测 的 动态 系统 控制 . 比如 说 , 一 辆 利用 激光 测 距 仪 、 
GPS 和 相机 进行 观测 的 无 人 驾驶 汽车 . 我 们 称 之 为 控制 问题 . 
区 一 了 


| 


控制 
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本 课程 讨论 性 能 评 佑 、 优 化 、 推 断 和 控制 问题 .这 其 中 的 一 些 问 题 在 计算 机 科学 
中 被 称 为 人 工 智 能 ， 而 在 电子 工程 中 则 被 称 作 统计 信号 处 理 . 概率 学 家 称 之 为 样本 ， 
而 数学 家 将 其 称 为 特例 .我们 通过 讲述 具体 的 实际 应 用 ， 如 网 络 搜索 、 多 路 传输 、 数 
字 通 信 、 语 音 识别 、 图 像 跟踪 、 路 径 规 划 和 推荐 系统 等 来 介绍 这 些 技术 . 在 学 习 和 了 
解 这 些 概 念 的 过 程 中 ， 我 们 也 会 为 大 家 介绍 这 个 领域 的 相关 巨 壁 . 

本 书 的 内 容 十 分 有 趣 、 能 引 人 思 考 . 希望 你 们 能 分 享 我 对 这 些 想法 的 热情 . 
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仔细 阅读 了 手稿 的 黄 隆 波 博 士 和 Ramtin Pedarsani， 感 谢 提供 了 宝贵 意见 的 Abhay 
Parekh 博士 、David Aldous 教授 、Venkat Anantharam 教授 、Tom Courtade 教授 、Michael 
Lustig 教授 、John Musacchio 教授 、Kannan Ramchandran 教授 、Anant Sahai 教授 、David 
Tse 教授 、Martin Wainwright 教授 和 Avideh Zakhor 教授 . 感谢 担任 课程 助教 并 设计 了 
课程 作业 的 Stephan Adams 、Vijay Kamble 、Shiang Jiang 博士 、Sudeep Kamath 博士 、 
Jerome Thai、Baosen Zhang 博士 和 Antonis Dimakis 教授 . 感谢 教授 我 概率 论 的 Pravin 
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网 站 https://sites.google.com/site/walrandpeecs/home 为 本 书 提供 了 额外 的 资源 ， 如 
勘误 、 附 加 题 、 评 论 和 幻灯 片 等 .教师 也 可 以 使 用 该 网 站 来 寻求 问题 的 解决 方案 . 
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应 用 : 在 网 页 搜索 中 ， 按 网 页 相关 度 由 高 到 低 进行 排序 
主题 : 有 限 离散 时 间 马 尔 可 夫 链 ， 强 大 数 定律 


背景 知识 : 附录 A.l1 ~ A.2 


搜索 引擎 采用 不 同 的 算法 将 网 页 按 给 定 的 关键 字 以 相关 度 递减 的 方式 排序 . 其 中 
种 算法 的 思想 是 计算 马尔 可 夫 链 的 稳 态 分 布 . 本 章 讨论 这 种 分 布 的 存在 性 与 唯一 
性 ， 以 及 在 随机 浏览 时 找到 一 个 特定 网 页 所 需 的 平均 时 间 . 我 们 将 采用 强大 数 定律 证 
明 马 尔 可 夫 链 处 于 每 个 特定 状态 的 时 间 比 例 是 收敛 的 . 


1.1 模型 


互联 网 由 一 系列 相互 链接 的 网 页 组 成 . 这 些 网 页 和 它们 之 间 的 链接 关系 构成 了 一 
张 图 . 如 图 1-1 所 示 ， 图 中 的 节点 是 所 有 的 网 页 区 ， 奉 网 页 i 有 一 个 到 网 页 j 的 链接 ， 
则 图 中 有 一 条 由 i 到 j 的 弧 (有 向 边 ). 


图 1-1 在 网 络 中 ， 网 页 总 是 指向 其 他 的 网 页 . 在 本 图 中 P(4, B)= 1/2,，P(D, E)= 1/3 


直观 上 看 ， 一 个 高 级 别 网 页 所 指向 的 网 页 也 应 具有 较 高 的 级 别 (在 实际 中 ， 除 了 
我 们 在 此 讨论 的 网 页 级 别 度量 方式 , 搜索 引擎 的 排序 结果 还 取决 于 网 页 中 关键 字 是 否 
出 现 以 及 其 他 许多 因素 )、 因 此 ， 我 们 定义 网 页 i 的 级 别 xD) 为 一 个 正 数 ， 并 且 满 足 
X= YAP(j,i),ied. 


jelt 


pl 
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PG, 1 表示 所 有 网 页 7 的 外 向 链接 中 指向 ; 的 链接 所 占 的 比例 .如 果 j 没有 指向 i 的 
链接 ， 则 PG, i) = 0. 在 上 述 例子 中 ,我们 有 P(4, B)= 1/2,，P(D, E)= 1/3, P(B, 4)=0 
等 .这 一 算法 的 思想 源 自 拉 里 : 佩 奇 (Larry Page， 见 图 1-2 )， 这 也 是 PageRank ( 佩 
奇 排序 ) 这 一 名 字 的 由 来 . 


图 1-2 谷歌 公司 创始 人 之 一 拉 里 : 佩 奇 


可 以 将 这 些 等 式 以 矩阵 的 形式 记 作 
X=NAP. (1.1) 
这 里 ,zx 是 一 个 以 xQi) 为 分 量 的 行 向 量 ， 而 P 是 一 个 以 Pi 让 为 元 素 的 方 阵 . 
式 (1.1 ) 称 为 平衡 方程 .这 里 我 们 注意 到 ， 如 果 一 个 向 量 x 是 这 个 方程 的 解 ， 那 
么 区 的 任意 倍数 也 是 这 个 方程 的 解 . 为 方便 起 见 ， 我 们 将 解 归 一 化 ,使 得 所 有 网 页 的 
级 别 之 和 为 1: 


> z0)=1. (1.2 ) 


1-3 这 是 平衡 方程 吗 


对 于 图 1-1 中 的 例子 ,平衡 方程 为 
Xx(A) = XA(C)+A(D)13) 
Xx(B)= A(A)1/ 2) + aD 3)+ A(E)Y/2) 
A(C)=A(B)+ A(E) /2) 
Xx(D)= x(A)12) 
Xx(E)= x(D)(1/3). 


再 加 上 zx) 的 和 为 1 这 一 条 件 ， 可 以 得 到 


第 1 章 JpageRam 一 A 


X=[x(A),7(B), A(C), 7(D), T(E)]= 二 02， 9,10,6,2]. 


此 可 以 看 到 , 网 页 4 具有 最 高 的 级 别 , 网 页 具有 最 低 的 级 别 . 运用 这 一 方法 
的 搜索 引擎 会 将 这 些 网 页 级 别 与 其 他 因素 相 结合 来 进行 网 页 排序 . 一 些 搜索 引擎 也 会 
采用 这 一 度量 的 变种 来 对 网 页 进行 排序 . 


1.2 马尔 可 夫 链 


想象 一 下 你 正在 浏览 网 页 : 假设 你 在 网 页 i 上 浏览 了 一 个 单位 时 间 ， 然 后 随机 点 
击 进入 了 网 页 i 指向 的 一 个 网 页 . 在 这 个 过 程 中 ,从 网 页 i 到 网 页 j 的 概率 正好 为 PGi， 
刀 ， 与 前 面 的 例子 相同 . 


1.2.1 定义 
考虑 一 个 包含 节点 七 = {1, 2,…, N} 和 有 向 边 的 有 限 图 .假设 其 中 有 些 节 点 具有 


指向 自己 的 边 . 图 中 每 条 边 (i, ))， 都 有 一 个 权重 PGi, ]) > 0. 这 些 权 值 使 得 每 个 点 外 向 
边 的 权 和 为 1 根据 习惯 ， 如 果 图 中 没有 从 到 7 的 边 ， 则 PGi, 四 为 0. 

以 上 述 方式 得 到 的 矩阵 已 = P[(i, 力 叫 作 随机 算 阵 .这 种 矩阵 的 每 个 元 素 均 为 非 负 ， 
并 且 每 行 的 和 为 1. 现在, 我 们 定义 以 下 过 程 {X(n), n 二 0} : 在 时 刻 0 的 时 候 用 X(0) 表 
示 系 统 所 处 的 状态 ; 随后 的 每 一 个 时 刻 n， 系 统 由 状态 X(n-1) =i 跳 到 状态 X(n) =j 的 
概率 为 P(i, 7)， 即 系统 所 处 在 的 状态 仅 由 X(n-1) 与 决定. 这 样 定 义 的 过 程 {X(n), n 宕 
0} 被 称 为 马尔 可 夫 链 . 该 有 限 图 则 被 称 为 马尔 可 夫 链 的 状态 转移 图 . 


wy 


图 1-4 安 德 雷 ' 马尔 可 夫 ( 1856 一 1922 ) 


图 1-5 展示 了 3 个 马尔 可 夫 链 的 状态 转移 图 . 
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图 1-5 3 个 具有 不 同 转移 概率 的 3 状态 马尔 可 夫 链 ( 状态 为 | 1 2,3 有 ) 
上 面 的 描述 可 以 用 以 下 公式 来 表述 : 
PIX(n+1l)=j| X(N)=i,X(m),m<n]=P(,)), Vi,je dt,n0. (1.3) 
从 状态 i 移动 到 状态 j 的 概率 与 先前 状态 无 关 ， 这 种 “健忘 ”的 性 质 叫 作 蕊 尔 可 
夫 性 质 . 这 也 正 是 X(n) 被 称 为 “状态 ”的 原因 : 它 包 含 了 所 有 预测 该 过 程 未 来 状态 所 
需要 的 相关 信息 . 


1.2.2 1 步 后 的 分 布 和 稳 态 分 布 C3 


假如 马尔 可 夫 链 在 第 n 步 (2>0 ) 处 于 状态 j 的 概率 为 0)， 则 它 在 第 n+l 步 处 
于 状态 i 的 概率 za(D) 可 由 下 面 的 公式 得 至 
tn)= 2 7 (DP)ied. (1.4) 


de 


事实 上 ， 马 尔 可 夫 链 在 第 对 1 步 处 于 状态 i 的 事件 可 以 表示 为 马尔 可 夫 链 在 第 n 
步 处 于 状态 j， 但 在 第 n+t1 步 时 处 于 i 事件 的 集合 ， 由 于 这 些 事件 为 互 斥 事件 ( 即 每 
次 只 能 处 在 一 个 状态 j ),， 联合 事件 发 生 的 概率 正好 为 各 个 时 间 的 概率 之 和 ， 且 马尔 可 
夫 链 在 第 n 步 处 于 状态 j 而 第 ntl 步 处 于 状态 i 的 概率 是 x 0)P0, 站. 

在 矩阵 记 法 下 ， 


所 以 ， 
元 = 万 己 ,7 二 0 (1.5) 
这 里 我 们 注意 到 ， 对 于 n>0 和 ;iE 寺 的 所 有 情况 ， 当 且 仅 当 zo 满足 式 (1.1) 的 
平衡 方程 时 有 z(D) = mm(D). 在 这 种 情况 下 ， 称 z 为 稳 态 分 布 . 因此, 稳 态 分 布 就 是 式 
(1.1) 的 非 负 解 zx， 并 满足 分 量 之 和 为 1. 
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1.3 分析 


经 过 上 述 分 析 与 推导 之 后 ， 我 们 会 很 自然 地 提出 以 下 的 问题 . 
Q1: 是 否 每 个 马尔 可 夫 链 都 具有 一 个 稳 态 分 布 ? 

Q2: 该 稳 态 分 布 是 否 唯 一 ? 

Q3: zm 是 否 总 是 趋向 于 稳 态 分 布 ? 


1.3.1 不 可 约 性 和 非 周 期 性 


为 了 回答 上 面 的 三 个 问题 ， 首 先 定义 马尔 可 夫 链 的 一 些 性 质 . 
定义 1.1 不 可 约 的 ， 非 周期 性 的 ， 周 期 性 的 
(a) 如 果 一 个 马尔 可 夫 链 可 以 从 一 个 状态 转移 到 任意 其 他 状态 (也许 经 
过 许多 步 的 跳 转 )， 那 么 该 马尔 可 夫 链 是 不 可 约 的 . 
(b) 假设 一 个 马尔 可 夫 链 是 不 可 约 的 ， 并 且 定 义 ” 
d(i):=g.cd{n21|P"(i,i) >0}. (1.6) 


所 有 i 都 有 相同 的 值 d(i) = d (如 引 理 2.8 所 示 ) ”如果 d=1， 那 么 该 马尔 可 
夫 链 是 非 周 期 性 的 ; 否则 它 是 周期 性 的 ， 且 周期 为 d. 


在 图 1-5 中 , 马尔 可 夫 链 (a) 和 (b) 是 不 可 约 的 ,而 (c) 是 可 约 的 . 同时 ，(a) 是 周期 性 
的 ， 而 (b) 是 非 周 期 性 的 . 


1.3.2 大 数 定律 


我 们 可 以 通过 一 些 简单 的 例子 说 明 Q2、Q3 的 答案 并 非 总 是 肯定 的 . 比如 ， 对 于 
一 个 没有 状态 转移 的 马尔 可 夫 链 来 说 ， 每 一 个 分 布 都 是 它 的 稳 态 分 布 . 再 比如 ， 考 虑 
一 个 只 在 状态 0、1 之 间 来 回转 变 的 马尔 可 夫 链 .如 果 从 xo(0) = 1 开始 ， 则 它 在 偶数 
时 刻 zx,(0) = 1， 在 奇数 时 刻 x,(0) = 0. 因此 丈 并 不 收敛 . 
尽管 有 这 些 反 例 ， 我 们 仍然 能 得 到 下 面 的 重要 结论 . 
定理 1.2 ”有 限 状态 马尔 可 夫 链 大 定律 
(a) 每 一 个 不 可 约 的 有 限 马 尔 可 夫 链 都 拥有 唯一 的 稳 态 分 布 x, 并 且 x(i) 
表示 马尔 可 夫 链 X(n)=i 的 长 期 时 间 比 例 . 
(b) 如 果 这 个 马尔 可 夫 链 是 非 周 期 性 的 ， 其 nn 步 分 布 , 随 着 nn 收 仇 到 K. 


QD 如 果 5S 是正 整数 集 ，g.c.4.(5) 表 示 这 些 正 整 数 的 最 大 公约 数 . 


EECS 应 用 概率 论 


在 以 上 的 定理 中 ，X(n) =i 的 长 期 时 间 比 例 定义 如 下 ”: 


1 N-l 
lim— > 1{X(n)=. 
jm) = 


在 这 个 公式 里 ， 当 Xn) =i 时 1{X(n)} 取 1, 否则 取 0. 一 般 来 说 ,如 果 4 是 一 个 事件 ， 
那么 当 该 事件 发 生 时 1{4} 取 1， 否则 取 0. 我 们 称 1{4} 是 事件 4 的 指示 函数 ， 

这 个 定理 说 明 ， 如 果 马 尔 可 夫 链 是 不 可 约 的 ， 上 述 极限 存在 并 且 等 于 x(i)， 而 且 
该 极限 不 依赖 于 随机 变量 的 具体 取 值 . 这 意味 着 每 次 模拟 该 马尔 可 夫 链 都 会 得 到 相同 
的 极限 ( 本 章 练习 8 将 验证 这 一 点 ). 


1.3.3 长 期 时 间 上 比例 


为 什么 马尔 可 夫 链 在 一 个 状态 的 时 间 比 例 收敛 ?在 浏览 网 页 的 例子 中 ,如 果 统 计 
花费 在 网 页 4 上 的 时 间 ， 将 其 除 以 花费 在 所 有 网 页 上 的 时 间 n， 会 发 现 这 个 值 随 着 n 
收敛 到 x(4). 

这 一 结果 和 我 们 熟知 的 抛 硬 币 试验 类 似 : 如 果 重 复 抛 措 一 枚 均匀 的 硬币 ， 正面 朝 
上 的 频率 会 收敛 于 50%. 因此 ， 尽 管 硬 币 没 有 任何 记忆 , 但 是 它 却 保 证 了 正面 朝 上 的 
概率 为 50%! 这 是 为 什么 呢 ? 

事实 上 ， 这 些 收敛 结果 都 可 以 被 视 为 大 数 定理 的 特例 . 大 数 定 理 对 于 直观 地 理解 
概率 和 统计 规律 具有 极 核 心 的 作用 . 正 是 因为 它 , 我 们 能 对 不 确定 的 结果 进行 预测 . 以 
下 是 大 数 定律 的 具体 表述 .我们 将 在 第 2 章 进 行 更 具体 的 讨论 . 

定理 1.3 ”强大 数 定律 

如 果 {X(n) 二 1} 是 一 系列 均值 为 1 的 独立 同 分 布 的 随机 变量 ， 那 么 当 
四 +…+ 芝 00) 的 概率 为 1. 
n 


7 -oo 时 ， 


因此 ， 样 本 均值 Yn) := (X(1)+…+X(n))/n 以 概率 1 收敛 到 期 望 值 ( 见 图 1-6 )， 这 
里 的 样本 均值 Y(n) 是 随机 变量 : 对 于 每 个 n，Y(n) 的 值 取决 于 随机 变量 X(m) 的 具体 取 
值 . 因此 ,重复 这 一 试验 可 能 会 得 到 不 同 的 值 . 然而 , 它 的 极限 值 以 概率 1 收敛 到 jx. 这 
种 收敛 模式 名 为 几乎 处 处 收敛. 


人 求 和 表示 起 初 N 步 内 马尔 可 夫 链 在 状态 i 的 总 时 间 . 除 以 YX 表示 时 间 比 例 , 取 极限 得 出 长 期 时 间 比 例 . 
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图 1-6 ” 当 抛 折 一 枚 均匀 的 骨 子 时 ， 样 本 均值 收敛 于 3.5 
1.4 击 中 时 间 


在 图 1-1 中 , 假设 从 网 页 4 开始 浏览 . 在 每 一 步 以 相同 的 概率 点 击 进 入 当前 页 的 
一 个 外 部 链接 网 页 , 那么 需要 多 少 步 才能 到 达 网 页 8? 我 们 把 这 个 时 间 叫 作 网 页 的 
击 中 时 间 ， 也 叫 首 通 时 间 ， 记 作 Te. 从 图 中 可 以 看 到 ，7s 的 最 小 值 为 2， 当 然 ，Ts 
也 有 可 能 比 2 大 得 多 . 


.国外 


图 1-7 这 可 不 是 我 们 说 的 击 中 时 间 


1.4.1 平均 击 中 时 间 
我 们 的 目标 是 计算 从 鸠 =4 开始 的 Ts 的 均值 : 
PB(A):= ElT: | Xo= 4]. 
完成 这 一 计算 的 关键 在 于 计算 从 所 有 可 能 的 初始 页 面 到 E 的 平均 击 中 时 间 . 也 就 是 
说 ,我们 要 计算 当 i= 4, B, C, D,E 时 的 pQ)， 
P= ET | Xo =i]. 
这 么 做 的 原因 在 于 ， 从 4 开始 命中 五 的 平均 时 间 与 从 B 和 从 DD 开始 的 平均 击 中 时 间 
相关 联 ， 而 它们 又 和 从 C 开始 的 平均 击 中 时 间 有 关 . 首先 得 到 


7 


P(A4)=1+= (CD)+ PD) (1.7) 


可 以 这 样 理解 这 个 式 子 : 从 4 开始 经 过 1 步 后 , 马尔 可 夫 链 以 1/2 的 概率 转 到 状态 B， 
而 以 1/2 的 概率 处 于 状态 D. 因此 , 在 1 步 后 ， 马 尔 可 夫 链 命中 的 平均 时 间 以 1/2 
的 概率 等 于 从 B 开始 到 命中 五 的 平均 时 间 , 以 1/2 的 概率 等 于 从 D 开始 到 命中 5 的 平 
均 时 间 . 

这 个 情况 和 下 面 这 个 例子 类 似 : 抛掷 一 枚 均匀 硬币 ， 如 果 正 面 彰 上 可 以 得 到 随机 
的 对 元 ， 如 果 反 面 朝 上 则 可 以 得 到 随机 的 了 元 .平均 下 来 ， 可 以 得 到 


1 1 
FB)+T BY). 


通过 类 似 的 论证 ， 可 以 得 到 以 下 和 式 (1.7) 并 列 的 等 式 ， 
B(B)=1+ PB(C) 

B(C)=1+ BA) 

BD) =1+3P(A+3 PB) + PE) 
B(E)=0. 


这 些 方程 和 式 (1.7 ) 一 起 构成 了 首 步 方程 (First Step Equation，FSE ). 通过 求解 方程 
到 | 


BCA) =17, B(B)=19, B(C) =18,p(D)=13,pCE)=0. 
1.4.2 击 中 另 一 状态 之 前 命中 基 一 状态 的 概率 


仍然 考虑 前 面 的 例子 , 但 是 这 次 考虑 从 网 页 4 开始 先 访问 C 再 访问 五 的 概率 . 我 
们 将 这 一 概率 记 作 


a(A)=PIT. <T, |X,=4]. 
和 前 面 的 情况 类 似 ， 需 要 计算 所 有 i= 4, B,C, D,E 时 的 a(i). 首先 
a =70(B)+ 70(D) (1.8) 


式 (1.8 ) 成 立 是 因为 ， 从 4 开始 经 过 1 步 之 后 会 有 两 种 情况 : 第 一 ， 以 1/2 的 概 
率 处 于 状态 ， 然 后 会 以 a(8) 的 概率 在 之 前 访问 C; 第 二 ， 以 1/2 ee 
D，, 然后 会 以 a(D) 的 概率 在 EB 之 前 访问 C. 因此 , 从 4 开始 在 EE 之 前 访问 C 的 事件 是 
这 两 个 互 斥 事件 的 集合 ,因为 要 么 先 经 过 B, 要 么 先 经 过 D, 然 后 再 在 EE 之 前 访问 C. 将 
两 个 事件 的 概率 相 加 ， 得 到 式 (1.8 ). 

如 同 计算 平均 击 中 时 间 一 样 ， 我 们 也 得 到 以 下 的 等 式 组 : 


攻 这 
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Q(B)= 0(C) 
a(C)=1 


Qa(D)= 0() 十 Q(B)+ a(E) 
a(E)=0. 
这 些 方程 和 式 (1.8 ) 一 起 叫 作 首 步 方程 . 解 之 可 得 


oA)=3, 0(B) = oC) = oD) -SoCD-0， 


1.4.3 马尔 可 夫 链 的 首 步 方程 


现在 把 前 面 例子 中 得 到 的 结果 推广 到 任意 的 有 限 马 尔 可 夫 链 . 记 交 = {1,2, …, NN} 
为 状态 集合 ， 并 记忆 为 马尔 可 夫 链 的 转移 概率 和 矩阵. 此 时 ， 定 义 7 为 状态 i 的 击 中 时 
间 . 对 于 状态 集合 4c 区 ,定义 有 =min{ta>0lKooDEd4 为 集合 4 的 击 中 时 间 . 
第 一 个 扩展 考虑 7 的 平均 值 .定义 
P= ET |X,=i,iedt, 


则 首 步 方程 是 


1+5,PGi, ))B()), i¢4 


mo - 


接 下 来 ,对 两 个 不 相交 的 集合 4 和 B, 即 4,B 忆 二 有 旦 4MB= 儿 ,考虑 在 击 中 集合 
8B 之 前 击 中 集合 4 的 概率 .定义 
xcO= PIT <T, | X, =il,ie, 


然后 可 以 得 到 下 述 的 首 步 方程 组 


2 ,Pli, Da(]), ig AUB 
Qo(i) = 1, ied 
0, ieB. 


第 三 个 扩展 是 
7= Dax)). 


这 可 以 理解 为 每 次 访问 状态 i 时 我 们 得 到 h(i) 的 奖励 ,直到 马尔 可 夫 链 进入 状态 集合 4 
为 止 . 令 


r(D)= ELY|X, =il,ie 
可 以 得 到 以 下 的 首 步 方程 


(1.9) 


DENOTE PE DD), ie4 
h(i), IE 4. 


第 四 个 扩展 是 研究 
Z=》 PCXKCD) 的 值 . 


这 里 8 为 折扣 因子 . 令 
0(i) = ELZ | X, = 


则 首 步 方 程 是 


| De 
OO) = 
h(i), ieh. 


希望 以 上 这 些 例 子 能 让 读者 大 致 认识 到 , 许多 关于 有 限 状 态 马尔 可 夫 链 的 问题 都 
能 找到 解答 的 方式 . 这 是 一 件 十 分 幸运 的 事情 ， 因 为 马尔 可 夫 链 在 对 工程 和 自然 系统 
的 建 模 与 模拟 中 都 有 着 广泛 的 应 用 . 


1.5 小 结 


口 马尔 可 夫 链 : 状态 ， 转 移 概 率 ， 不 可 约 的 ， 非 周期 性 的 ， 稳 态 分 布 ， 击 中 时 间 
口 强大 数 定律 
口 大 数 定律 : 不 可 约 意 味 着 有 唯一 的 稳 态 分 布 , 这 个 分 布 等 于 长 期 时 间 比 例 ; 如 
果 既 不 可 约 又 是 非 周期 性 的 ， 则 收敛 于 稳 态 分 布 

口 击 中 时 间 : 首 步 方程 


重要 方程 与 公式 
马尔 可 夫 链 的 定义 PLX(n+D=j|X(n)=i,X(m,m<n]=Pi,)) (1.3) 
马尔 可 夫 链 X(n) 的 概率 方程 元 =NA,P" 式 ( 1.5) 
平衡 方程 已 = 区 式 (1.1) 
首 步 方程 zGO)=AD+ZPGC D7) 式 (1.9) 


1.6 参考 资料 


关于 马尔 可 夫 链 有 非常 多 优秀 的 书籍 ， 我 最 喜欢 的 是 Grimmett 和 Stirzaker 的 
Probability and Random Processes ， 以 及 Bertsekas 和 Tsitsiklis 的 Introduction to 
Probability， 最 初 介绍 PageRank 的 专利 文献 是 “Method for node ranking in a linked 
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database”. Easley 和 Kleinberg 的 电子 书 Networks, Crowds, and Markets: Reasoning About 
a Highly Connected World 对 社交 网 络 的 探讨 很 有 启发 性 .该 书 的 第 14 章 讨 论 了 PageRank. 


1.7 练习 


. 构造 一 个 不 可 约 的 马尔 可 夫 链 ， 要 求 其 分 布 收敛 于 唯一 的 稳 态 分 布 . 

. 给 出 一 个 马尔 可 夫 链 ， 要 求 其 分 布 的 极限 收敛 量 依 赖 于 初始 分 布 . 

. 你 能 找到 一 个 分 布 不 收敛 、 不 可 约 、 非 周期 性 的 有 限 马尔 可 夫 链 吗 ? 

. 给 出 一 个 有 限 、 不 可 约 、 非 周期 性 的 马尔 可 夫 链 , 要 求 它 以 很 慢 的 速度 收敛 于 
5. 证 明 : 如 果 Xn) 是 一 个 马尔 可 夫 链 ， 则 函数 Y(n) = ge(X(n)) 有 可 能 不 是 一 个 马 

尔 可 夫 链 . 


DD 一 


上 


6. 如 果 一 个 马尔 可 夫 链 是 独立 同 分 布 的 随机 变量 序列 , 它 是 否 是 不 可 约 的 和 非 周 
期 性 的 ? 
7. 考虑 马尔 可 夫 链 Xn)， 其 状态 如 图 1-8 所 示 ， 其 中 a, bE (0,1). 
a b 
人 


图 1-8 第 7 题 的 马尔 可 夫 链 


(a) 证 明 这 个 马尔 可 夫 链 是 非 周期 性 的 . 

(b) 计算 PLXD = 1, X(2) =0, X(3)=0, X(4) = 1|X(0)= 0]. 

(c) 计算 其 稳 态 分 布 . 

(gd) 令 也 =minfa>0MD= 症 ， 计 算 ELTX(0)= 1]. 

8. 用 Matlab 写 一 个 状态 马尔 可 夫 链 {X(n),n 宇 1} 的 模拟 程序 . 假设 其 初始 分 布 委 
为 zx， 转移 概率 矩阵 为 P， 这 个 程序 需要 完成 以 下 任务 : C3 

(a) 绘制 {X(n), n= 1,…, N}; 

(b) 绘制 X(n) 在 某 些 指定 状态 上 所 花 的 时 间 比 例 ， 并 将 其 表示 为 m 的 函数 

(m= 1, …,N); 

(c) 绘制 X(n) 等 于 某 些 确定 状态 的 概率 ， 其 中 = 1, …, N; 

(d) 用 这 个 程序 模拟 一 个 5 状态 的 周期 性 马尔 可 夫 链 ; 

(e) 用 这 个 程序 模拟 一 个 $ 状态 的 非 周期 性 马尔 可 夫 链 . 

9. 用 你 在 问题 8 中 写 的 程序 模拟 图 1-1 和 图 1-5 的 马尔 可 夫 链 . 
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10. 计算 图 1-5 所 示 的 马尔 可 夫 链 的 稳 态 分 布 . 
11. 计算 图 1-5 所 示 的 马尔 可 夫 链 的 4(1)、d(2) 和 4d(3) (定义 在 式 (1.6) 中 ). 
12. 计算 图 1-1 所 示 的 马尔 可 夫 链 的 4(4) (定义 在 式 (1.6 ) 中 ). 
13. 设 {M,,n 二 0} 为 一 个 有 限 状 态 马 尔 可 夫 链 . 假设 它 有 唯一 的 稳 态 分 布 x 且 ,对 于 
任意 初始 分 布 男 都 收敛 于 r.， 请 问 以 下 哪些 选项 是 正确 的 ? 
口 马 是 不 可 约 的 . 
口 甩 ,是 周期 性 的 . 
口 闷 是 非 周期 性 的 . 
口 马 可 能 不 是 不 可 约 的 . 
14. 考虑 在 {0, 1 上 的 马尔 可 夫 链 {,2>0}. 设 P(0,1)=0.1, P(1,0)=0.3, 以 下 
哪些 选项 是 正确 的 ? 
口 该 马尔 可 夫 链 的 样本 空间 是 {0,1}. 
口 该 马尔 可 夫 链 的 稳 态 分 布 为 [0.75, 0.25]. 
口令 7T =min{n=0|%,= 1}， 那么 E[TIXo=0]=1.2. 
口 E[X+% Xo =0] =0.8. 
15. 考虑 一 个 马尔 可 夫 链 ， 其 状态 转移 如 图 1-9 所 示 . 


图 1-9 第 15 题 的 马尔 可 夫 链 


(a) 该 马尔 可 夫 链 的 周期 是 多 少 ? 解释 原因 . 

(b) 找 出 该 马尔 可 夫 链 的 所 有 稳 态 分 布 . 

(c) 总 的 分 布 兽 在 一 oo 时 是 否 收敛 ”解释 原因 

(d) 马尔 可 夫 链 花 在 不 同 状态 中 的 时 间 比 例 是 否 收敛 ? 如 果 收 敛 ， 其 极限 是 多 少 ? 
16. 考虑 图 1-10 所 示 的 马尔 可 夫 链 . 


人 区 SS 0.7 
0 
1 0.5 ~/0.3 03 


图 1-10 第 16 题 的 马尔 可 夫 链 
(a) 找 出 该 马尔 可 夫 链 的 所 有 稳 态 分 布 . 

(b) 假设 zx0(3)= 1， 求 lim,_ wn. 

17. 考虑 图 1-11 所 示 的 马尔 可 夫 链 . 
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图 1-11 第 17 题 的 马尔 可 夫 链 


(a) 找 出 该 马尔 可 夫 链 的 所 有 稳 态 分 布 . 

(b) 当 n 一 w 时 ,zw 是 否 收敛 ? 如 果 收 敛 ， 加 以 证 明 . 

(c) 马尔 可 夫 链 花 在 所 有 状态 中 的 时 间 比 例 是 否 收 敛 ? 并 证 明之 . 
18. 考虑 一 个 马尔 可 夫 链 ， 其 状态 转移 如 图 1-12 所 示 . 


从 
C3 


图 1-12 第 18 题 的 马尔 可 夫 链 


(a) 找 出 该 马尔 可 夫 链 的 稳 态 分 布 x 

(b) 计算 从 状态 0 到 2 的 所 需 时 间 期 望 值 . 

(c) 用 Matlab 绘制 从 0 开始 经 过 n 步 后 ， 马 尔 可 夫 链 还 未 到 达 2 的 概率 . 

(d) 用 Matlab 对 该 马尔 可 夫 链 进行 模拟 并 绘制 在 步 后 花费 在 不 同 状态 上 的 时 间 

比例 . 

(e) 用 Matlab 绘制 元 ,. 

19. 考虑 图 1-13 所 示 的 马尔 可 夫 链 {%, n>0} ,假设 加 = 0. 求 怠 在 到 达 2 之 前 
两 次 到 达 1 的 概率 . 


12 
0 
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图 1-13 第 19 题 的 马尔 可 夫 链 


20. 画 一 个 6 状态 、 不 可 约 、 非 周期 性 的 马尔 可 夫 链 ， 并 且 设 置 转移 概率 . 在 办 
Matlab 中 模拟 该 马尔 可 夫 链 . 画 出 该 链 在 所 有 6 个 状态 的 时 间 比 例 . 假设 从 状态 1 开 C3 
始 ， 画 出 它 在 每 个 状态 的 概率 . 

21. 重复 第 20 题 ， 将 条 件 改 为 模拟 一 个 周期 性 的 马尔 可 夫 链 . 

22. 如 何 使 网 页 排序 算法 给 你 的 主页 一 个 较 高 等 级 ? 
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提示 : 尝试 添加 男 一 个 网 页 并 加 入 一 些 链接 . 

23. 证 明 状 态 的 保持 时 间 是 几何 分 布 的 . 

24. 抛 搓 一 枚 般 子 ， 平 均 来 说 ， 要 抛掷 多 少 次 才能 得 到 最 后 两 次 点 数 和 为 10? 

25. 抛掷 一 枚 仍 子 ,平均 来 说 , 要 抛掷 多 少 次 才能 得 到 最 后 三 次 的 点 数 和 至 少 为 15? 

26. 一 个 二 重 随机 和 矩阵 是 非 负 和 矩阵 ， 行 、 列 和 均 为 1. 证 明 这 样 一 个 转移 矩阵 的 
稳 态 分 布 是 均匀 的 . 

27. 假设 图 1-5 中 的 马尔 可 夫 链 (c) 从 状态 1 开始 . 计算 它 在 被 状态 3 吸收 前 ， 访 
问 状 态 1 的 平均 次 数 . 

28. 一 个 人 尝试 候 上 及 级 的 梯子 . 他 在 爬 每 一 步 的 时 候 ， 都 有 概率 p 掉 回 地 ”多 
面 ， 否 则 候 上 一 级 . 用 首 步 方程 的 方法 从 理论 上 分 析 他 到 达 顶 部 所 需 的 平均 时 间 ， C3 
计算 N= 1，…, 20 和 p= 0.05, 0.1, 0.2 的 情况 . 利用 Matlab 绘制 相应 的 图 像 

29. 设 { >0} 为 一 个 有 限 状 态 、 不 可 约 的 马尔 可 夫 链 , 其 概率 转移 矩阵 为 P. 证 
明 当 Nw 时 ， 3, =i,X,, = 让 二 XQ)P(i, 站 的 概率 为 1. 


30. 证 明 马 尔 可 夫 链 {X,, 2 >0 可 以 写作 已 = 内，2>0. 这 里 的 ,是 独立 
于 怠 的 独立 同 分 布 的 随机 变量 . 

31. 设 P 和 P 是 随机 和 矩阵 ,x 是 有 限 集 蕊 上 的 概率 分 布 .假设 
A(DP(i, 7) =A())P(j,D), vi,j et, 

证 明 zx 是 P 的 稳 态 分 布 . 

32. 设 有 ,是 有 限 集 世上 的 马尔 可 夫 链 .假设 该 马尔 可 夫 链 的 转移 图 为 一 棵 树 ， 
如 图 1-14 所 示 . 证 明 如 果 zz 是 稳 态 的 ,，P 是 转移 和 矩阵， 则 它 满足 如 下 细致 平衡 方程 : 

A(DPli, 7)) = A P(,D, Vi,j. 


O 


cs 


图 1-14 树 状 的 转移 图 


33. 设 {M,, n 宇 0} 是 一 个 在 {-1,1} 上 的 马尔 可 夫 链 . 假设 P(-1,1) = P(1, -1)=a, 其 
中 a 是 给 定 的 且 aE(0,1). 定义 = Wt…+%,，n 宇 0. 
(a) {2,, n 宇 0} 是 马尔 可 夫 链 吗 ? 证 明之 . 
(b) 如 何 计算 
E[zr| 马 =1H] ， 其 中 r=minfo>0| 和 =-50 或 了 =30}? 


34. 假设 无 限 次 地 抛掷 一 枚 均匀 的 硬币 . 证 明正 面 出 现 次 数 总 是 比 背 面 出 现 次数 
大 的 概率 为 0. 


第 儿 章 


PageRank—B 


主题 : 样本 空间 ， 轨迹; 大 数 定律 ( 弱 大 数 定律 、 强 大 
的 证 明 


数 定律 ); 大 定理 


背景 知识 : 附录 A.1 ~A.3, 第 1 章 


在 本 章 中 , 我 们 进一步 讨论 第 1 章 中 的 一 些 概念 . 具体 地 说 ,我 们 会 详细 解释 马 


尔 可 夫 链 的 样本 空间 、 大 数 定律 及 其 证 明 . 
如 序言 中 所 述 ， 介 绍 性 的 课程 可 以 跳 过 每 章 的 B 部 分 . 


2.1 样本 空间 


首先 将 马尔 可 夫 链 "XY = {V6, 2>0} 与 附录 A.l 中 的 总 体 


E 架 联系 起 来 .附录 A.1 


提 到 : 随机 试验 通过 样本 空间 来 描述 ,样本 空间 包含 了 随机 试验 的 所 有 可 能 结果 ， 概 


率 分 布 建立 在 样本 空间 子 集 合 上 ， 以 及 随机 变量 是 随机 试验 结果 的 实 值 函 数 . 
为 了 阐明 这 些 概 念 ， 首 先 假设 总 为 独立 同 分 布 的 伯 努 利 随机 变量 ， 并 有 PC = 1) = 


PY =0)= 0.5. 现在 考虑 一 个 重复 抛掷 一 枚 均匀 硬币 的 实验 . 


用 来 描述 实验 的 结果 . 这 个 实验 的 一 个 可 能 结果 是 产生 一 个 全 0 或 者 全 1 的 无 穷 序 
列 . 注意 ， 这 里 的 实验 结果 并 不 是 指 单个 的 0 或 者 1， 而 是 一 个 无 穷 序 列 ， 因 为 结果 


这 时 ， 这 些 随 机 变量 可 


描述 的 是 一 直 不 停 抛 掷 硬 币 时 发 生 的 情况 . 因此， 样本 空间 


Q 是 无 穷 0、1 序列 的 


集合 {0, 1}”. 若是 一 个 这 样 的 序列 ， 有 wo = (ou ob …)，mnE {0, 1}， 现 在 ,我们 


可 以 很 自然 地 定义 乞 (ww) =w,, 并 将 其 看 作 是 第 n 次 (n=0) 抛 挪 的 结果 . 因此 , 对 所 有 


wEQ,， 都 有 元 (w)E RR ， 而 且 每 个 成 都 是 一 个 定义 在 Q 


上 的 实 值 函 数 . 比如 ， 


(1101001...) = 1， 因 为 当 w = 1101001... 时 ，wo = 1. 同 理 , 这 (1101001...)= 1， 


六 (1101001...) = 0. 


Q@ 写作 厌 或 Xln). 


16 ”EECS 应 用 概 府 论 


为 了 具体 说 明 随机 实验 , 还 需要 定义 在 Q 上 的 概率 分 布 . 最 简单 的 描述 方法 是 对 
所 有 nn 二 0 及 a,b, …,zE1{0,1}, 设 
P(foloo=a 01=b, ,01=2})= PO =a, …, Y=2)= 1/2". 


例如 ， 


Pl({wlwo=1))= PO =1)= 1/2. 


同样 ， 


Pl({wlw0=1,@1=0})= PO = 1,% =0)= 14. 

注意 我 们 定义 了 结果 集合 或 者 事件 的 概率 {fwolwo = w w1= 5,…, wy = 也 ,而 不 是 每 
一 个 特定 结果 w 的 概率 .这 是 因为 对 于 任 一 特定 的 0、! 无 限 序 列 ， 我 们 观察 到 其 概 
率 为 0. 也 就 是 说 , 若 wEQ, 则 P({w})=0. 这 样 的 描述 并 不 能 告诉 我 们 任何 有 关 抛 
硬币 的 信息 ， 比 如 硬币 的 偏 移 以 及 每 一 次 的 抛掷 均 为 独立 的 . 所 以 ,正确 的 定义 方法 
是 指定 事件 ( 结果 集合 ) 的 概率 ， 而 不 是 独立 结果 的 概率 . 

每 个 马尔 可 夫 链 都 有 一 个 特定 的 样本 空间 Q， 并 且 每 一 个 及 ,都 是 某 个 结果 ww 的 
函数 马 (o)， 其 中 wo 取 值 的 集合 记 为 蕊 ”马尔 可 夫 链 的 概率 分 布 定义 在 9 的 子 集 上 . 

在 这 个 例子 中 ，Q 可 以 定义 为 所 有 在 区 中 符号 的 无 限 序 列 的 集合 .也 就 是 说 ，Q= 
区 ", 上 且 每 一 个 元 素 wEQ 均 为 w = (ou ol …), 其 中 ww,EX, n 二 0, 如 图 2-1 所 示 . Q 
的 选择 和 抛 硬 币 的 样本 空间 相 类 似 ， 叫 作 规范 样本 空间 . 马尔 可 夫 链 的 一 个 实际 取 值 
序列 叫 作 轨迹 ， 或 者 马尔 可 夫 链 的 实现 . 


TH 


图 2-1 在 规范 样本 空间 中 ， 结 果 w 是 马尔 可 夫 链 的 轨迹 


接 下 来 需要 解决 的 是 如 何 为 Q 中 的 事件 分 配 概率 . 采用 的 方法 和 抛 硬币 例子 中 的 

相 类 似 ， 注 意 到 马尔 可 夫 链 为 某 一 特定 序列 的 概率 为 0( 比如 全 部 正面 彰 上 )， 因此， 

我 们 为 Q 的 子 集 而 非 对 单个 结果 定义 概率 . 具体 地 说 , 对 于 在 守 中 的 io, i …, i, 设 
对 所 有 n 二 0 都 有 

P(X0=io, XI =, , X= in) = Ao(io)P(io, i1) Xx x Pi in). (2.1) 


这 里 ，zo(io) 是 马尔 可 夫 链 从 状态 i 开始 的 概率 ， 即 初始 分 布 . 


X(@,n) 


1 
1 
1 
1 
1 
1 
1 
1 
n 
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注意 ， 这 一 性 质 与 式 (1.3 ) 等 价 . 实际 上 ， 如 果 设 
A = {Xo= io, X1=i, 2 以 及 411= {X60=io, =， WT = 


那么 ， 由 式 (1.3 ) 可 以 得 到 
P(An) = PLAslAn1lP (A) = P(A DP in). 
由 数学 归纳 法 进一步 得 到 式 (2.1 ). 
至 此 ， 我 们 已 经 定义 了 由 马尔 可 夫 链 前 ntl 个 值 所 定义 的 事件 的 概率 . 事实 上 ， 
在 Q 上 存在 一 个 概率 分 布 与 所 有 这 些 定义 值 相 一 致 . 


2.2 投掷 硬币 的 大 数 定律 


在 讨论 马尔 可 夫 链 之 前 ， 先 考虑 一 个 简单 的 例子 一 一 抛掷 硬币 . 设 芭 2 >0} 是 独立 
同 分 布 的 伯 努 利 随机 变量 ， 服 从 PC = TD = P(X,=0)=0.5， 可 以 认为 有 ,= 1 表示 第 n 
次 抛掷 时 正面 朝 上 , 马 =0 代表 反面 朝 上 . 我 们 想 要 证 明 ， 如 果 一 直 不 断 地 抛掷 硬币 ， 
那 正面 朝 上 的 百分数 会 收敛 到 50%.， 以 下 是 这 一 结论 的 两 种 严格 数学 表达 方式 . 


2.2.1 依 概 率 收 效 


第 一 种 严格 的 数学 表达 如 下 : 当 n 很 大 时 , 例如 nn = 105， 正面 朝 上 的 比例 几乎 都 
是 50%, 其 至 不 会 偏离 1%. 我 们 要 证 明 , 在 10 次 抛掷 中 , 正面 朝 上 的 百分数 大 于 51% 
或 小 于 49% 的 可 能 性 很 小 ， 并且， 只 要 多 抛掷 硬币 ， 这 一 可 能 性 就 会 尽 可 能 地 减 小 . 


和 


下 面 来 证 明 这 一 点 .定义 了 = 二 二 一 一 ,为 前 次 抛 据 正 面 朝 上 的 比例 . 根 
n 
据 切 比 雪夫 不 等 式 ， 有 : 
Ppl, - E00)| 2) < Ee. (22) 


2 
[a 


图 2-2 帕 夫 努 季 : 切 比 雪夫 ( 1821 一 1884 ) 
为 了 理解 式 (2.2 )， 要 注意 到 ” 


@ 1{C} 为 指示 函数 .其 当 C 为 真 时 取 值 1， 反之 取 0. 


Y, -ECY,)) 


1{Y,—E(Y,)|z se} < 6 E (2.3) 


若 了 -EB(7,) 三 a ， 则 (7Y, -EE(Y,)) 三 e?， 因此， 如 果 不 等 式 (2.3 ) 左边 为 1， 则 右边 
大 于 等 于 1. 如果 左 边 为 0， 那么 左边 小 于 等 于 右边 . 所 以 ， 式 (2.3 ) 总 是 成 立 . 
为 E(14) = P(4) 并 且 A(X-E(W))) = var(%9), 所 以 对 式 (2.3 ) 两 边 取 期 望 值 就 能 得 到 式 ( 2.2 ). 

现在 计算 ¥, 的 期 望 与 方差 . 我 们 可 以 先 得 到 E(Y,) = 0.5. 注意 ， 如 果 用 a 乘 以 一 
个 随机 变量 ,其 方差 会 乘 以 a?. 并 且 ， 独立 随机 变量 和 的 方差 是 它们 方差 的 和 . 于 是 
得 到 


Var(X0+:*+X, 1) nvar(X,) 


党 区 
n n 


var(y, ) = 


所 以 ， 
六 
ne 
又 因为 加 = B(0.5)， 所 以 有 


var(Xo) = E(Xo”)—(E(CX0)) = BEC) —(E(X0)) = 0.5-0.25 = 0.25. 
由 此 得 到 


1 
P(Y -0.5| 二 6) . 
( 2 ) 4ne’ 


这 里 如 果 选 择 e=1%=0.01， 由 上 式 可 得 ， 当 n= 105 时 ， 


PU7 -0.5| 三 1%0) < 2 - 0.025. 
n 


事实 上 ,从 上 面 的 推导 可 以 看 出 , 当 趋向 无 穷 的 时 候 , P(|Y, -0.5| 宇 6) 0,v, >0. 
2.2.2 几乎 处 处 收效 


现在 考虑 第 二 种 精确 陈述 “正面 朝 上 的 比例 接近 50%” 的 方法 : 只 要 持续 抛掷 便 
币 ， 那 么 对 于 任何 能 观察 到 的 硬币 抛 搓 序列， 百分比 ¥, 均 收敛 到 50%. 第 一 个 证 明 
这 一 结论 的 是 雅 可 比 … 伯 努 利 . 


图 2-3 雅 可 比 : 伯 努 利 (1655 一 1705 ) 
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事实 上 ， 在 很 多 抛 硬币 的 序列 中 ,正面 朝 上 的 百分数 不 接近 50%. 比如 ， 每 次 都 
出 现 “ 正 面 ”的 序列 使 得 ,= 1, 所 以 六 ,不 收敛 于 50%. 类 似 地 ,序列 001001001001001.. 
使 得 ,收敛 于 13 而 非 W2， 如 果 结 合 这 些 序列 的 存在 以 及 上 述 的 论断 ， 我 们 得 出 的 
结论 是 , 这些 使 得 %, 不 收敛 于 50% 的 序列 的 总 概率 为 0, 也 就 是 我 们 永远 不 会 观察 到 
它们 的 出 现 . 

如 果 认 真 思 考 一 下 ， 就 会 发 现 这 事实 上 是 一 个 非常 艰深 的 结论 ， 因 为 需要 排除 的 
序列 非常 多 ,全 部 罗列 基本 上 不 可 能 . 但 事实 上 ， 这 个 结论 有 一 个 十 分 巧妙 的 证 明 方 
式 ， 我 们 下 面 就 来 看 看 证 明 是 如 何 完 成 的 .首先 ， 
2 人 上 


P(|Y, -0.5|2 6)< E( ), vn,e >0. 


与 上 面 的 例子 相同 , 这 个 不 等 式 是 基于 1 兰 旨 志 上 2 | 并 通过 取 期 望 得 到 


的 . 由 上 式 可 以 得 到 : 
(CN -0.3)+… 二 (和 一 0.3)) 
14 


E(Y, -0.5|)=E( yy 


现在 取 Z, = 成 -0.$， 得 到 


匹 ( 忆 -0.3)+…+( 一 0.39))) = E(SZ, ))=E( > 2,2,2.2,). 
这 里 的 求 和 是 遍历 所 有 a, b, c, 4E {0, 1 …, n-1}， 包括 n 个 Zs 项 ，n(n-1) 个 ZZ2Z? 项 
(az#b )， 以 及 其 中 至 少 一 个 因子 Zz 没有 重复 的 其 他 项 . 后面 的 这 些 项 的 期 望 值 为 0. 这 
是 因为 所 有 其 他 的 5、c、4d 项 都 与 a 不同, 所 以 由 独立 变量 的 期 望 可 以 得 到 E(Z,2,2.22) = 
E(Zi)E(ZsZs2i) =0. 由 此 可 得 


E( > 2,2,2.21)=nE(Zi)+n(n -DE(Z027)=no+n(n-D)p. 


其 中 a= E(2o9, 而 p= E(2Zo 21")， 将 这 一 结果 带 入 前 面 的 表达 式 中 ， 可 以 得 到 
[2 A Le es DB matp)_oatp 


ne ns n? 


由 此 不 等 式 得 到 ” 
DP(Y, -0.5|= 6)<%. 


7 二 1 


这 个 表达 式 表 明 ， 事件 4,: = {lZ-0.5|>s} 的 概率 之 和 为 有 限 数 . 现在 由 附录 A.1 中 的 


是 


@ 回顾: 了 二 <o . 
n n 
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七 一 


博 雷 尔 - 坎 泰利 (Borel-Cantelli ) 引 理 得 到 
P(A,, i.0.)= 0. 


这 个 结果 说 明 ，ow 仅 在 有 限 个 汉中 出 现 的 概率 为 ] 所以， 必然 存在 一 个 ww) 使 得 


n 宇 n(@) 时 wg4,， 也 就 是 说 ， 
|Y (0)-0.5|< e, vn n(@). 


由 于 上 述 的 结论 对 于 任意 e>0 均 成 立 ， 可 以 得 到 当 n 趋向 无 穷 时 ，Y(@) 一 0.5. 
实际 上 ， 如 果 及 (@) 不 收敛 于 50%， 一 定 存 在 > 0 使 得 |-0.5| > s 对 无 限 多 个 n 


成 立 ， 但 是 我 们 已 经 看 到 情况 并 不 是 这 样 . 


2.3 独立 同 分 布 随机 变量 的 大 数 定 律 


上 上 文 抛掷 硬币 的 结果 可 以 推广 到 独立 同 分 布 随机 变量 {K。n> 0 上， 具体 来 说 ， 
要 证 明 当 m_>oo 时 ，7 : -下 趋 近 于 区区， 如同 抛掷 硬币 的 例子 一 = 于 


里 也 有 两 种 严格 的 数学 方法 来 陈述 这 一 结论 
2.3.1 弱 大 数 定律 


首先 定义 以 下 收敛 模式 . 
定义 2.1 依 概 率 收敛 


令 马 ,1 三 0 和 总 为 定义 在 同一 个 概率 空间 上 的 随机 变量 .如果 对 于 任意 


人 > 习 一 0， 则 六 依 概 率 收 化 到 站 并 记 作 
Sl 
现在 来 看 弱 大 数 定律 . 


定理 2.2 弱 大 数 定律 
设 { 刀 ,10 是 均值 为 凡 的 独立 同 分 布 随机 变量 序列 ， 那 么 


择 和 十 十 有 1 了 
,= 一 一 
n 


证 明 假设 KE < o， 其 证 明 与 抛掷 硬币 例子 中 的 推导 一 样 . 因此 将 其 
者 作为 练习 .对 于 一 般 情 况 ， 请 参见 定理 13.18. 


QD 可 以 通过 令 n(@) 一 1 为 满足 wE4, 的 最 大 n 得 到 . 


(2.4) 


ce 
留 给 读 


让 
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2.3.2 强大 数 定律 


现在 定义 另 一 种 收敛 方式 . 
定义 2.3 ”几乎 处 处 收敛 

设 {%,n 宇 0} 和 了 为 定义 在 同一 个 概率 空间 上 的 随机 交 量 . 如 果 P(limX， 
(@) = 禄 (@)) =1， 则 称 大 几乎 处 处 收 化 于 XX， 记 作 X Xas. 。 
这 一 收敛 意味 着 当 n 一 w 时 ， 实 数 序 列 马 (w) 以 概率 1 收敛 于 实数 XX@). 
同 定 理 2.2 中 一 样 设 {%,, n 宇 0} ， 可 以 得 到 如 下 结论 ”. 
定理 2.4 ”强大 数 定律 

设 {V,n 三 0} 是 一 组 均值 为 的 独立 同 分 布 随机 变量 ， 那么 当 n 一 0 时 ， 
Xo +…+ 站 

n 


-> j4 的 概率 为 1 


因此 ， 样 本 均值 二 全 全 以 概率 1 收 全 于 期 望 值 ( 见 图 2-4) 


45 


| 人 WA Yln) 


9 a 


25 


| n 
0 4 


tn 


图 2-4 当 投掷 一 枚 均匀 的 仍 子 时 ， 样 本 平均 值 收敛 了 


证 明 假设 Fo) < o， 其 证 明 与 抛掷 硬币 例子 中 的 推导 相同 . 因此 将 其 留 作 练 
习 . 一 般 情 形 下 的 强大 数 定律 证 明 在 定理 13.18 中 给 出 . 和 

图 2-5 阐释 了 强大 数 定律 和 弱 大 数 定律 .强大 数 定律 指出 ， 独 立 同 分 布 随 机 变量 
的 样本 均值 以 1 的 概率 收敛 于 均值 . 弱 大 数 定律 告诉 我 们 ， 当 样本 数量 增加 时 ， 样 本 
均值 和 期 望 值 之 间 的 差 会 变 小 . 


3.5 


@ 几乎 处 处 收敛 可 推出 依 概率 收敛 ， 所 以 强大 数 定律 比 弱 大 数 定律 更 强 . 见 本 章 练习 5. 
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强大 数 定律 ， 每 一 个 观测 的 实现 值 都 趋向 0.5 


弱 大 数 定律 ， 实 现 值 偏离 0.5 的 部 分 变 小 


0.2 于 
独立 同 分 布 随 机 变量 U[0,1] 的 10 个 模拟 
0.1 
0 ， ， ， ， 
0 100 200 300 400 500 


Se 


图 2-5 独立 同 分 布 随机 变量 UT0, 1] 的 强大 数 定律 和 弱 大 数 定律 〈 另 见 彩 插 


2.4 马尔 可 夫 链 的 大 数 定律 


对 于 一 个 有 限 不 可 约 的 马尔 可 夫 链 ， 它 在 某 个 状态 停留 的 时 间 比 例 等 于 该 状态 
的 稳 态 分 布 值 . 例如 一 个 在 {0, 1} 上 的 马尔 可 夫 链 Xl(n), 设 P(0, 1)=a=P(1,0), 其 
中 aE(0, 1). 那么 该 马尔 可 夫 链 会 有 一 半 时 间 停 留 在 状态 0. 而 图 1-1 中 的 马尔 可 夫 
链 在 状态 4 停留 的 时 间 比 例 为 12/39. 

为 了 理解 这 一 性 质 ， 我 们 来 看 看 马尔 可 夫 链 回 到 某 个 状态 i 的 时 间 间 隔 . 图 2-6 
绘 出 了 一 个 由 马尔 可 夫 链 产生 的 序列 X(n)， 可 以 将 这 一 序列 拆 分 为 从 状态 i 开始 再 到 
状态 i 结束 的 循环 . 不 难看 到 ， 由 于 马尔 可 夫 链 的 性 质 ， 这些 连续 循环 的 时 间 长 度 7， 


ZL, 73， … 是 独立 同 分 布 的 变量 . 


Xm) 


DB 5 Tr 


图 2-6 返回 状态 i 的 时 长 彼此 是 独立 同 分 布 的 .大 数 定律 揭示 了 在 
每 个 状态 停留 的 平均 时 间 比 例 最 终 收 敛 到 一 个 常数 

不 难看 到 ， 这 些 随机 时 间 长 度 的 期 望 值 都 是 有 限 的 . 事实 上 ， 对 于 固定 的 状态 i, 
任意 的 状态 j 都 只 需要 有 限 步 就 能 走 到 i.， 定义 Mj 为 所 需要 的 最 少 步 数 . 由 马尔 可 夫 
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链 的 性 质 可 知 ， 存 在 一 个 非 零 的 概率 pj 使 得 只 需要 Mj 步 就 能 走 到 . 记 M = maxyMj 且 
p= minp;， 从 任何 一 个 状态 开始 的 M 步 之 后 ， 马 尔 可 夫 链 会 以 概率 p 走 到 状态 i， 如 
果 M 步 没有 走 到 ， 那么 重复 刚刚 的 步骤 . 由 此 可 知 <MT ， 其 中 7 是 以 p 为 参数 的 
几何 变量 ， 所 以 ，E(T)<ME(T )= Mlp <o， 可 以 类 似 地 得 到 E(T)<MIE(T)<o. 
以 上 的 条 件 可 以 通过 应 用 强大 数 定律 得 到 : 当 趋 向 无 穷 的 时 候 ， 


一 一 一 全 E(T) 的 概率 为 1. (2.5 ) 


所 以 ,马尔 可 夫 链 在 状态 i 停留 的 长 期 时 间 比 例 以 概率 1 收敛 (详细 推导 见 下 文 ): 

lim u Se : 

T+tD tt ET) 

现在 解释 为 什么 式 (2.6 ) 等 价 于 马尔 可 夫 链 在 状态 i 上 停留 的 时 间 比 例 收敛 于 

1E(T1). 设 4(n) 为 在 时 刻 n 前 访问 状态 i 的 次 数 . 首先 证 明 4(n)/n 收敛 于 WE(T1). 我 
们 看 到 ， 对 于 Ti+…+ 三 < 站 + 二 Ti， 都 有 


(2.6) 


天 2 天 
T+i+tTn nn nn T+…+ 
如 果 假 设 当 kw 时 ，Ti/k 一 0， 由 上 述 不 等 式 可 以 得 出 
A(n) Ls 1 | 
n E(T) 


那么 TiWk 是否 趋 向 于 0? 由 上 述 的 分 析 可 得 


了 
POE > oS POT > EP > a SU-p)" ， 


其 中 wx = s/A. 
因此 ， 由 博 雷 尔 - 坎 泰利 引 理 ( 见 附录 A.1 ) 可 知 ， 事 件 mk > 在 趋向 于 无 
穷 的 时 候 仅 出 现 有 限 次 ， 也 就 证 明了 TUE>0. 


2.5 期 望 的 收效 


设 罗 和 邓 是 随机 变量 ,并 上 且 名, 依 概率 收敛 到 XX. 那么 这 是 否 代 表 E(X,) 一 E(X)? 
一 般 来 说 ， 答 案 是 否定 的 . 下 面 这 个 简单 的 例子 就 可 以 说 明 这 一 点 . 令 "Z = pU[0, 1] 
并 定义 且 =n: 1{Z<1n}， 其 中 nn 三 1 且 对 =0 ( 见 图 2-7)， 可 以 观察 到 ， 若 n> 1/Z， 
则 五 =0. 因此 , n 足够 大 时 有 五 =0, 所 以 五 一 0 的 概率 为 1. 闷 等 于 7 的 概率 为 1/n 


QD 记号 “=p” 代 表 “ 和 …… 有 相同 的 分 布 ”. 


( 当 Zs1n 时 )， 而 在 其 他 情况 下 总 =0. 因此 E(%)= 1 对 所 有 的 n 均 成 立 . 


本 


n X, 
4 Xs 
3 
2 这 
1 才 
0 mi 2 
和 
R43 2 1 


图 2-7 随机 变量 也 ,使 得 一 0 且 ECO) 一 1 


于 是 得 到 ，%, 依 概率 收 合 到 XX， 征 E(X,) = 1 E(X) =0. 
在 一 般 情况 下 ， 取 极限 和 求 期 望 的 顺序 是 不 能 调换 的 .也 就 是 说 ， 
lim E(X,)# E(lim X,). 


在 前 面 的 例子 中 ， 左 边 为 1， 右 边 为 0. 

下 面 以 定理 的 形式 给 出 两 个 期 望 的 极限 和 极限 的 期 望 相等 的 充分 条 件 . 这 两 个 条 
件 将 会 在 我 们 后 续 的 分 析 中 用 到 .不 过 在 这 里 我 们 不 予 证 明 . 

定理 2.5 ”控制 收敛 定理 和 单调 收敛 定理 


二 


设 了 ,和 于 满足 卫 一 和 的 概率 为 1. 

(a) 控制 收敛 定理 (DCT ) 

若 V| 二 YE(7) <w, 则 EO) 一 FOR. 
(b) 单调 收敛 定理 (MCT ) 


若 0 有 <， Vn， 则 EC 一 EC. 
我 们 注意 到 ， 图 2-7 中 的 例子 并 不 满足 MCT 和 DCT 的 条 件 . 
下 面 看 MCT 的 应 用 ， 考 虑 一 个 事件 序列 4,, 设 X=》1，， 那么 , 由 MCT" 可 得 


N N oo 
E(X)=E(lim 1,)= lim) EQ,)= > PC 
n=0 n=0 n=0 


这 里 特别 值得 注意 的 是 ”， 


oo N 
Q@ 回顾 : > 二 lim >》 . 
n=0 Ee 


@ 若 0<X,， ECW) <w, 那么 PK<o)=1. 
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如 果 PC4 ) <w， 则 POX<w0) =1. 


也 就 是 说 ，w 只 属于 有 限 个 4 的 概率 为 1. 这 也 就 是 定理 A.1 中 运用 概率 的 连续 性 证 
明 的 博 雷 尔 - 坎 泰利 引 理 . 
博 雷 尔 - 坎 泰利 的 北 定 理 

这 是 博 雷 尔 - 坎 泰利 引 理 的 部 分 逆 定 理 . 

引 理 2.6 ” 博 雷 尔 - 坎 泰利 的 逆 定 理 


设 4 为 互相 独立 的 事件 ， 并 有 了 ,P(L4,)=oo ， 则 


PC ioJ)= 1 


证 明 设 加 =1{4,}. 
P(X, =0,vn>m)=limP(X, =X,, =.…=X, =0) 


=lim(-P(4,).…(-P(4,) 
< limexp{-P(4,)}.…exp{-P(4,)} 
= limexp{-P(4,)—…… -P(A4,)}=0. 


在 第 二 步 的 不 等 式 中 ,我 们 用 到 了 1-x 志 exp{~x},，YV x 宇 0. 

所 以 得 出 结论 ， 对 于 任意 m， 可 以 以 概率 1 找到 一 个 n 三 m, 满足 ,= 1. 也 就 是 , 存 

在 无 穷 多 个 ,= 1 的 概率 为 1. . 
下 面 的 例子 是 这 个 逆 定 理 的 应 用 . 考虑 独立 随机 变量 马 ， 这 里 马 =B(GAD. 由 引 

理 2.6 可 知 存 在 无 穷 多 个 总 =1( 因 为 概率 和 为 无 穷 ), 即 浆 不 收敛 于 0 的 概率 为 1. 然 

而 ， 对 于 任意 s>0 


i 1 
当 n 下 w 时 ，P(| XX, -0|>e) 志 P(X, =1)=——0. 
n 


因此 ,成 依 概率 收敛 到 0， 但 不 是 几乎 处 处 收敛 . 
2.6 大 定理 的 证 明 
本 节 给 出 马尔 可 夫 链 重要 结论 的 证 明 . 


2.6.1 定理 1.2(a) 的 证 明 
设 mj 为 由 状态 j 出 发 回 到 状态 j 的 期 望 时 间 ， 即 


mij = ELT, |1X(O) = 用, 其 中 7,=minfn >0|X(n)= 访 . 


下 面 证 明 若 马尔 可 夫 链 不 可 约 ， 则 xD) = 1/mj， j= 1，…, 入 是 唯一 的 不 变 分 布 . 
考虑 一 段 时 间 n= 1,…, N, N 》 1. 根据 定义 , 在 这 段 时 间 里 ,马尔 可 夫 链 访问 
状态 j 的 时 间 比 例 为 Vmj. 在 这 些 访问 中 ,马尔 可 夫 链 访问 状态 7 后 紧 接着 访问 状态 i 
的 比例 为 PG, i). 所 以 , 马尔 可 夫 链 在 访问 j 后 紧 接着 访问 i 的 时 间 比 例 为 PO, D (1/m). 通 
过 对 7 求 和 ， 可 以 得 到 马尔 可 夫 链 访问 i 的 时 间 比 例 为 : 
1 ei 1 
人 


由 此 可 得 马尔 可 夫 链 的 一 个 稳 态 分 布 为 五 = 1/m;， 这 正好 是 马尔 可 夫 链 访问 状态 i 的 
时 间 比 例 . 
如 果 还 存在 男 一 个 稳 态 分 布 $B(i)， 可 以 假设 马尔 可 夫 链 从 该 分 布 开 始 . 于 是 有 


EX = = x(7). 


然而 ， 假 如 对 上 式 左右 两 边 取 期 望 ， 会 发 现 左 边 等 于 %OD， 因 此 几 =x， 由 此 可 以 看 到 x 
是 马尔 可 夫 链 的 唯一 稳 态 分 布 ?. 


2.6.2 定理 1.2(b) 的 证 明 


如 果 马 尔 可 夫 链 是 不 可 约 的 , 但 是 具有 周期 性 ， 则 ww, 有 可 能 不 收敛 于 稳 态 分 布 
xz， 上 比如， 如 果 一 个 马尔 可 夫 链 在 0、1 之 间 交 替 并 且 从 0 开始， 那么 当 为 偶数 时 
z= [1 0]; 当 为 奇数 时 ,= [0, 1]， 因 此 友 , 不 收 钱 于 zx= [0.5, 0.5]. 
如 果 马 尔 可 夫 链 是 非 周期 性 的 ， 那 么 zw 一 x， 而 且 收 敛 方式 是 几何 收敛 . 下 面 用 
图 2-8 所 示 的 简单 例子 来 解释 这 一 结论 . 考虑 从 状态 1 走 回 到 状态 1 的 步 数 7: 
fa>0IP"(, 1)>0} = 13,4, 6,7, 8,9, 10, …}. 


(9) 0.3 


图 2-8 一 个 非 周 期 性 马尔 可 夫 链 


即 当 n=6 时 , P"(1, 1)>0. 由 于 PIX(Q2)= 1|X(0)=2]>0, 所 以 当 n=8 时 , P[X(n)= 
1|X(0) = 2]>0. 事 实 上 , 若 n 二 8, 则 对 可 以 用 2 步 从 2 到 1, 然 后 用 n-2 步 从 1 回 到 1. 对 
于 所 有 其 他 的 状态 ， 都 可 以 采用 类 似 的 证 明 . 由 此 ， 存 在 M>0 且 p>0 使 得 


@ 这 里 用 了 期 望 的 性 质 ，E(1 {X(n) = 让 )= _ PCD = 站 = $0). 
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PLXCM) = 1|X(0) =i]¥=p, i= 1,2,3,4. 
现在 ， 考 虑 2 个 马尔 可 夫 链 ，{X(n), n 宇 0} 和 {Y(n), n 宇 0} .其 中 和 0) 的 分 布 为 zo， 而 
Y(0) 则 服从 稳 态 分 布 rz， 让 两 个 马尔 可 夫 链 独立 演化 . 定义 

t=min{n >0|X(n)=Y(n)}. 
由 上 述 观 察 可 得 

PX =1 和 YM =1)¥p". 
所 以 ,， P(T >M)<1-p*. 如 果 T >M， 则 2 个 马尔 可 夫 链 在 时 刻 M 还 没有 相遇 . 如 前 所 
述 ， 可 知 2 个 马尔 可 夫 链 至 少 以 概率 产 在 接 下 来 的 M 步 中 相遇 所 以 ， 

P(T>AM)<(1-p) 
现在 修改 X(n), 使 其 在 时 刻 7 与 Y(n) 相 遇 后 等 于 Y(n). 注意 这 一 厅 合 操作 并 不 影响 X(n)， 
它 仍然 由 转移 阵 P 了 演变 因此, 仍 有 PC(n)= 站 = zw?),， z= XoP”. 
此 可 得 
> |PCKCD) =D- POCOD = PX YN)) < P(r >n). 


所 以 ， 
Pz, -xD)|<Pr >n). 
进一步 得 到 
若 n>KM , 则 zr,O)-z0)|< 0-p'). 


i 


Wl 


如 果 要 将 这 一 证 明 过 程 拓展 到 一 般 的 非 周期 性 马尔 可 夫 链 上 ， 还 需要 证 明 ， 对 了 
每 个 状态 i， 存 在 整数 n;， 使 得 P"(i, i) > 0 对 所 有 的 n 三 ni 均 成 立 ， 我 们 会 在 下 一 节 将 
这 一 结论 作为 引 理 2.9 给 予 证 明 . 


2.6.3 周期 性 


首先 来 看 不 可 约 马尔 可 夫 链 的 返回 时 间 的 性 质 . 

引 理 2.7 考虑 状态 i. 设 S= {n>0|P"(i,i)>0},， 并 令 4 为 5 的 最 大 公约 数 ， 那 
么 集合 5S 必然 包含 整数 n 和 ntd. 

证 明 ”这 个 证 明 很 巧妙 . 我 们 先 用 例子 解释 一 下 . 假设 $= {9, 15, 21, …} 并 有 4 
g.c.d.(S)=3. 那么 一 定 存在 a, bES 使 得 g.c.d.{a,b} =3. 否则 , 5 的 公约 数 不 为 3. 这 
里 , 取 a=15, b=21. 考虑 下 述 操 作 : 

(a, b)= (15, 21) 一 (6, 15)—(6, 9)—(3, 6)—(3, 3). 
在 每 一 步 ， 将 (x, y) (xs 和 y ) 变 成 有 序数 对 (x, y-x)， 注意 在 每 一 步 中 ，(x, y) 的 每 一 


项 都 是 a 和 4b 的 整数 线性 组 合 ,比如 (6, 15) = (2-a, q). 那么 (6, 9) = (b-a, a-(b-a)) = (bp-a, 
2a-b), 等 等 . 最 终 一 定 会 得 到 (3, 3). 这 些 项 会 递减 , 直到 得 到 0. 假设 得 到 (x, x) 且 x#3， 
那么 上 一 步 有 (x, 2x), 再 上 一 步 一 定 有 (x, 3x), 一 直 回 到 (a, 5), 所 以 a 和 6b 都 是 x 的 倍 
数 . 但 是 g.c.d.{a, 5b} =x， 出 现 了 矛盾 . 
通过 这 种 构建 方式 ， 有 序 对 的 每 一 项 在 每 一 步 之 后 都 是 a,b 的 整数 线性 组 合 . 
此 ，3=matnbp，m 和 nn 为 整数 .所 以 ， 


3=m'atn' bm a-nb, 


其 中 = maxf{m,0}, m=m 一 m ,n=n'-n 现在 设 
N=matnb H N+3= mi'atn'b. 

证 明 的 最 后 一 步 利 用 5 的 以 下 性 质 : 车 a,bES, 则 w a+B bES 对 于 任意 不 全 为 0 的 
整数 ag 和 6 成 立 . 这 一 性 质 可 以 通过 8 的 定义 得 到 . 所以,，N 和 N+3 都 在 5S 中 . 

对 于 一 般 的 有 公约 数 4 的 集合 8$， 证 明 方法 完全 一 样 . 和 

这 个 结果 可 以 用 于 证 明 马 尔 可 夫 链 周期 的 存在 . 

引 理 2.8 ”对 一 个 不 可 约 的 马尔 可 夫 链 ， 式 (1.6 ) 中 定义 的 dQi) 值 对 所 有 状态 i 
都 相同 . 

证 明 取 j 关 i. 要 证 明 该 引 理 , 只 需 证 明 d0)d(i), 因为 由 对 称 性 也 有 d(i)<a0). 

由 马尔 可 夫 链 的 不 可 约 性 可 知 ， 存 在 一 个 m 使 得 P”G, i) > 0. 同样 ， 也 存在 一 个 
使 得 PGi, 7) > 0. 现在 ， 由 dQ) 的 定义 和 之 前 的 引 理 可 得 ， 存 在 整数 入 使 得 PGi, i) > 0 
且 Pol, 六 > 0. 但 同时 

PT 人 ( 记 >0 和 PdOT( 记 让 >0. 


这 意味 着 整数 K:=ntNtm 和 K+d(i) 都 在 集合 S:= {n> 0|P"(j, 站 > 0} 中 . 由 此 得 到 
d0)=g.c.d.(S)<a(i). 和 

可 以 通过 证 明 下 面 的 引 理 来 证 明 马 尔 可 夫 链 n 步 分 布 的 收敛. 

引 理 2.9 设 外 为 一 不 可 约 的 非 周 期 性 马尔 可 夫 链 . 令 S= {n>0lP"(i,D)>0}. 则 
存在 ni 使 得 对 于 所 有 n 宇 nj 都 有 nES. 

证 明 首先 ， 由 于 马尔 可 夫 链 的 非 周期 性 ,我 们 有 daD = 1. 从 引 理 2.7 可 知 存在 
整数 N， 使 得 , N+1ES， 下 面 证 明 

任意 的 n> 和 都 满足 nes. 


首先 ， 对 于 m>N-1 有 
mN+0 = mN, 
mN+1 = (m-—1)N+(N+1), 


mN+2 = (m—2)N+2(N+1), 
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mN+N-1 = (m—N+1)N+(N-1)N+1). 
对 于 任意 的 n> 和 ， 可 以 将 其 表示 为 


n= mN+k, 
其 中 ke {0, 1,…,N-1} 且 m>N-1. 因此 ,n 是 和 N 和 N+1 的 整数 线性 组 合 , 且 N, N+1 ES， 
从 而 得 到 zE $. 
2.7 小 结 
口 样本 空间 
口 强大 数 定律 和 弱 大 数 定律 


口 控制 收敛 定理 和 单调 收敛 定理 

口 由 切 比 雪夫 不 等 式 推导 出 弱 大 数 定律 

口 由 博 雷 尔 - 坎 泰 利 引 理 与 四 次 方 期 望 约 束 推导 出 强大 数 定律 
口 马尔 可 夫 链 独立 同 分 布 的 返回 时 间 的 强大 数 定律 
口 大 定理 的 证 明 


重要 方程 与 公式 
强大 数 定律 CVit…+6)/n 一 E(X1) 的 概率 为 1 定理 2.4 
控制 收敛 定理 和 单调 收敛 定理 。 下 XY， 由 两 个 收敛 定理 可 得 EC) 一 EC 定理 2.5 
切 比 雪夫 不 等 式 PUGCG+…+ 和 Ja — 4 |e)<var(Xi)/e 式 (22 
概率 的 收敛 P(X|=2)—0 定义 2.1 
雷 尔 一 坎 泰 利 引 理 >,P(4)<%S PA,,io.)=0 定理 A.1 
马尔 可 夫 链 的 强大 数 定律 (有 三 中 + 有 三 攻 )M 一 zx) 的 概率 为 1 定理 1.2 


2.8 参考 资料 


Chung 的 Markov Chains with Stationary Transition Probabilities 是 一 本 非常 好 的 马 
尔 可 夫 链 教材 ， 如果 读者 们 希望 找到 进 阶 的 概率 理论 教材 ， 我 会 推荐 Billingsley 的 
Probability and Measure , Third Edition. 
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2.9 练习 


1. 考虑 一 个 在 {0, 1} 中 取 值 的 马尔 可 夫 链 ， 解释 为 什么 {0, 1} 不 是 它 的 样本 空间 . 

2. 考虑 一 个 在 {0, 1} 中 取 值 的 马尔 可 夫 链 ， 其 中 P(0, 1) =a，P(1, 0) = bp. 给 出 2 
个 不 同 的 样本 空间 及 其 概率 分 布 ， 使 得 它们 与 该 马尔 可 夫 链 相 一 致 . 

3. 绘 出 最 小 的 周期 性 马尔 可 夫 链 . 证 明 马 尔 可 夫 链 在 各 个 状态 中 停留 的 时 间 上 比例 
收敛 ， 但 在 时 刻 n 处 于 某 一 状态 的 概率 不 收敛 . 

4. 对 于 问题 2 中 的 马尔 可 夫 链 , 计算 转移 矩阵 的 特征 值 并 用 其 计算 马尔 可 夫 链 在 
时 刻 n 的 分 布 与 稳 态 分 布 之 间 的 距离 范围 . 
5. 为 什么 由 强大 数 定律 可 以 推出 弱 大 数 定 律 ? 具体 而 言 , 设 %, 和 为 随机 变量 并 
且 闷 几乎 处 处 收敛 到 成 证 明 马 以 概率 收敛 到 成 

提示 : 考虑 一 个 > 0 并 定义 乙 = 1 有 -下 = 时 运用 控制 收敛 定理 证 明 , 若 总 几 
乎 处 处 收敛 到 束 则 当 一"oo 时 E(Z,) 一 0. 

6. 画 一 个 4 状态 的 不 可 约 非 周期 性 马尔 可 夫 链 . 考虑 该 链 的 2 个 独立 版 本 : 一 个 
从 状态 1 开始 ， 另 一 个 从 状态 2 开始 . 说 明 为 什么 它们 在 有 限 的 时 间 内 会 相遇 . 

7. 考虑 图 1-1 中 的 马尔 可 夫 链 . 用 Matlab 计算 转移 矩阵 P 的 特征 值 ， 对 于 除 1 
以 外 的 特征 值 ， 设 4 为 其 最 大 绝对 值 . 再 用 Matlab 计算 

dm) = 2 7) -7,0)|, 


其 中 ，zoC) =1. 绘制 的 函数 d(n) 入 X. 
8. 抛掷 一 枚 均匀 的 硬币 . 若 为 正面 ， 可 以 得 到 随机 数额 为 他 的 现金 ; 若 为 反面 ， 


则 可 得 到 的 数额 为 Y， 证 明 平均 可 得 到 了 ECX)+ 了 E07) 的 现金 


9. 你 能 找 出 几乎 处 处 收敛 到 0， 但 不 以 概率 收敛 到 0 的 随机 变量 吗 ? 

10. 令 {%, n 三 1} 为 独立 同 分 布 的 随机 变量 , 期 望 为 0 且 方 差 为 只. 证 明 : 当 mo 
时 ，/n 一 0 的 概率 为 1. 

提示 : 使 用 博 雷 尔 一 坎 泰利 引 理 . 

11. 令 总 为 建立 在 苞 上 且 稳 态 分 布 为 z 的 不 可 约 马尔 可 夫 链 ，f: 下 轴 为 一 函 
数 . 证 明 : 


当 N 一 w 时 ， > > 2,70)f0 的 概率 为 1. 
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应 用 : 通信 链 路 共享 ， 多 径 ， 缓 冲 器 
主题 : 中 心 极 限定 理 ， 置 信 区 间 ， 排 队 ， 随 机 协议 


背景 知识 : 附录 A.1 ~A.3, 第 1 章 


在 通信 网 络 中 ， 人 允许 多 个 用 户 共享 通信 资源 是 一 个 重要 的 概念 . 

例如 ， 多 个 用 户 使 用 同一 根 同 轴 电 绕 ; 许多 手机 使 用 同一 个 基站 ; 一 个 Wi-Fi 热 
点 为 多 个 设备 提供 无 线 网 络 资源 ; 在 建筑 或 城市 之 间架 设 的 高 速 链 路 可 同时 为 很 多 用 
户 传送 数据 . 


电缆 调制 解 


利明 和 ”一 | 调 器 终端 系统 


了 下， 
(下 行 ) 


图 上行 信道 | | 
国 下行 信 关 频 频 部 序 


图 3-1 用 于 互联 网 接 入 的 同 轴线 电缆 〈 多 用 户 共享 ) 


这 种 多 路 复 用 共享 机 制 通过 在 同一 个 物理 媒介 中 同时 传输 属于 不 同 用 户 的 数据 
包 来 实现 . 多 路 复 用 极 大 地 降低 了 通信 系统 的 成 本 . 本 章 将 介绍 多 路 复 用 的 一 些 基 本 
统计 知识 . 
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3-2 ”蜂窝 基站 的 天 线 


在 3.1 节 的 开篇 ， 我 们 将 探讨 当 随机 位 用 户 共 享 同一 个 通信 和 链 路 时 ， 其 中 一 位 用 
户 的 信息 传送 速率 . 这 些 计算 对 于 网 络 的 规划 十 分 关键 . 分 析 中 用 到 的 主要 数学 工具 
是 中 心 极限 定理 . 为 了 共享 一 个 通信 链 路 , 通信 设备 通常 需要 连接 到 交换 机 上 . 例如 ， 
一 蛋 建 筑 物 中 的 台式 机 通常 会 被 全 部 连接 到 一 个 交换 机 上 , 这些 台式 机 的 数据 会 被 发 
送 到 一 个 共享 的 高 速 通信 链 路 上 . 3.5 节 将 会 用 到 马尔 可 夫 链 为 缓冲 器 建 模 并 进行 分 
析 . 研究 数据 包 通 过 交换 机 缓冲 器 时 所 经 历 的 延 时 .如 果 共 享 一 个 无 线 通信 信道 ， 通 
信 设 备 之 间 则 需要 通过 一 个 多 址 协议 ( multiple access protocol ) 来 协调 . 我 们 将 在 3.6 
节 中 用 概率 模型 来 分 析 这 些 协议 . 


3.1 链 路 共享 


在 互联 网 中 ， 每 一 时 刻 都 有 很 多 数据 流 需 要 共享 通信 和 链 路 . 例如， 可 能 会 有 20 
个 用 户 同时 通过 同一 个 运营 商 的 一 根 同 轴 电 缆 下 载 网 页 或 视频 资源 . 

在 网 络 中 , 不 同 数据 流 的 公平 资源 分 配 通常 由 传输 控制 协议 ( Transmission Control 
Protocol，TCP ) 来 实现 ( 至 少 理论 上 是 这 样 ). 

下 面 主要 来 考虑 单一 链 路 共享 的 情况 . 如 图 3-3 所 示 ， 这 条 链 路 的 数据 传输 速率 
为 Cbps (bits per second )， 阁 某 个 时 刻 有 vw 位 用 户 连 接 , 那么 每 一 位 用 户 获得 的 数据 


在 于 * 是 一 个 随机 变量 . 
Xl C 
| 本国 


7 


图 3-3 ”随机 的 "个 连接 共享 一 个 数据 传送 速率 为 C 的 通信 链 路 


首先 考虑 一 个 简单 的 模型 . 假设 一 个 通信 链 路 有 N > 1 位 潜在 的 共享 用 户 . 每 位 
用 户 使 用 该 链 路 的 概率 是 疡 并 且 彼 此 独立 . 那么 ,活跃 用 户 ( 即使 用 链 路 的 用 户 ) 的 
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数量 v 服从 二 项 分 布 B(N, p)( 参见 附录 A.2 ). 

3-4 给 出 了 N= 100 与 p=0.1, 0.2,0.5 时 相应 的 概率 质量 函数 . 对 于 N=100 且 
p= 0.2 的 情况 ,活跃 用 户 数 v 为 BQ100, 0.2) ， 也 可 以 写作 Binomia1(100, 0.2) . 平均 来 
说 , 会 有 Np = 20 个 活跃 用 户 . 不 过 , 也 可 能 有 多 于 20 个 活跃 用 户 . 我 们 希望 找到 一 
个 值 m, 使 得 有 多 于 m 个 活跃 用 户 的 概率 是 可 以 忽略 的 (小 于 5% ) 这 样 就 能 以 95% 
的 概率 保证 每 个 活跃 用 户 至 少 能 获得 C/m 的 数据 传送 速率 . 


PX=m Binomialf100. 0.1) 


Binomialf100, 0.2) 
0.08 上 2 


Binomialf100, 0.5) 


0.02 上 上 | J 
由 | | 帆 呈 | b De | 
-20 0 20 40 80 0 


图 3-4 ”二 项 分 布 B(100, p) 对 应 的 概率 质量 函数 , 其 中 的 取 值 分 别 为 0.1、0.2 和 0.5 ( 另 见 彩 搬 


Se 


基于 数值 m， 就 可 以 决定 这 个 通信 和 链 路 的 带宽 ， 以 及 对 网 络 资源 的 规划 . 直观 估 

计 ,，m 应 当 比 流量 的 均值 稍 大 . 我 们 可 以 看 看 图 3-5 所 示 的 一 个 实际 的 分 布 (通过 使 
用 Matlab 的 disttool 命令 得 到 )， 可 以 看 出 : 

PQv 27)=0.966>95% 并 且 PO 和 26) = 0.944 < 959%6 . (3.1 ) 


因此 ,使 得 PQ 三 m) 三 5% 的 m 最 小 值 为 m=27. 


Distrouton: | Bnomal Functon type: | CDF 


0.96585 


图 3-5 使 用 MATLAB 的 disttool 命令 可 得 式 (3.1 ) 的 结论 


下 面 来 看 可 以 用 于 近似 二 项 分 布 的 高 斯 分 布 . 我 们 稍 后 将 根据 这 一 近似 对 链 路 复 
用 进行 深入 的 探讨 . 


图 3-6 卡尔 . 弗 里 德里 希 : 


斯 (1777 一 1855 ) 


ai 


定义 3.1 高 斯 随机 变量 


(a) 如 果 随 机 变量 历 的 概率 密度 函数 ( Probability Density Function ,PDF ) 
fr 为 


这 


1- xen, 


则 W 被 称 为 期 望 为 0、 方差 为 1 的 高 斯 随机 变量 (或 正 态 随机 变量 )， 记 为 
刺 =， AN(0,1) .这 时 ,也 称 历 是 一 个 标准 正 态 随 机 变量 或 标准 高 斯 随机 变量 . 
(b) 若 随 机 变量 全 满足 


X=HW+toW, 


其 中 刺 =， AN(0,1)， 则 了 革 被 称 为 期 望 为 W、 方 差 为 o 的 高 斯 随机 变量 (或 
正 态 随 机 变量 )， 记 为 人 =, A (11,0?) ， 相 应 地 ",， 针 的 概率 密度 函数 为 


(一 2 


JrCD = eof 


图 3-7 为 服从 N(0,1) 分 布 的 随机 变量 矿 的 概率 密度 函数 . 特别 注意 
POW >1.65) ~ 5%, P(W >1.96) = 2.5% HL POW > 2.32) = 19%6 (3.2) 


@ 参见 附录 A.4. 
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图 3-7 服从 N(0,1) 分 布 的 随机 变量 概率 密度 函数 


中 心 极限 定理 指出 ,， 大量 相 互 独立 的 随机 变量 之 和 近似 于 高 斯 分 布 . 这 个 结论 解 
释 了 为 什么 由 许多 电子 随机 扰动 引起 的 热 噪声 服从 高 斯 分 布 . 许多 其 他 的 自然 现象 也 
都 服从 高 斯 分 布 ， 因 为 它们 都 是 由 许多 相互 独立 的 因素 释 加 而 成 的 . 
定理 3.2 ”中心 极限 定理 


设 {X(n),n 三 是 独立 同 分 布 的 随机 变量 , 均值 为 E(X(n))= 1， 方差 为 
Var(X(n))=o ， 那么 ， 当 %_、w 时 ， 


X()+…+X(n) -ny 


ONn 


= N10,1). (3.3) 


在 式 (3.3 ) 中 ,符号 “之 ”表示 依 分 布 收敛 . 具体 来 说 ,车 {7Y(n), n 三 由 是 随机 

变量 ,那么 Y(n) 之 N10,1) 表示 
P(Y(n) < x) > PW <x), vxeR. 

其 中 下 是 服从 NW(0,1) 的 随机 变量 .我 们 会 在 下 一 节 证 明定 理 3.2. 

下 面 给 出 一 般 情况 下 依 分 布 收敛 的 定义 . 

定义 3.3” 依 分 布 收 全 

设 { 了 (n),n 宇 1} 且 于 是 随机 变量 .如 果 对 所 有 使 得 P(=x)=0 的 x 都 有 
P(X(n)<x) > P(X x), ( 3.4) 
则 称 X(n) 依 分 布 收 敛 于 了 对， 记 作 了 XY(n) 过半 . 
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举例 来 说 , 设 X(n)=3+1l/n (CnEE1L) 且 X=3， 可 以 直观 地 看 到 Xn) 的 分 布 收敛 于 
了 的 分 布 .， 然而 ， 


P(X(n) <3)=0 PP(XEI)=1. 
不 过 ， 
P(X(n)x)— P(X x),vxz3. 
这 个 例子 解释 了 为 什么 定义 中 的 式 ( 3.4 ) 只 对 使 得 P(X =x)=0 的 x 要 求 P(X(n) 三 x) 
收敛 于 P(X 三 x). 

这 里 的 收敛 与 概率 论 中 的 收敛 以 及 处 处 收敛 等 概念 有 什么 关系 呢 ?” 首 先 , 依 分 布 
收敛 并 不 要 求 随机 变量 X(n) 与 在 同一 个 概率 空间 中 ， 因 为 定义 3.3 只 与 每 一 个 随机 
变量 的 概率 分 布 有 关系 . 事实 上 ， 可 以 证 明 ” 

若 半 (n) 二 半 以 概率 1 收敛 ， 则 有 X(OO) 之 生 〈 依 分 布 收敛 ). 
因此 ， 依 分 布 收敛 是 最 弱 的 一 种 收敛 方式 . 

同时 可 以 发 现下 面 这 个 非常 有 用 的 结果 : 如 果 针 (n) 地 ， 那 么 一 定 可 以 在 同一 

个 概率 空间 中 构造 随机 变量 Y(n) 和 了 ,使 得 Y(n) =, X(n),，Y=, 了 ,上 且 
Y(n) 一 了 的 概率 为 1. 

这 个 结论 似乎 有 些 神秘 , 但 其 实 是 很 直观 的 . 前 面 的 章节 提 到 ， 具 有 累积 分 布 函 

数 (-) 的 随机 变量 可 以 通过 选择 随机 变量 Z =, UT[0,1] 并 定义 
X(Z)=inf{fxe R|F(x) > 2} 


来 构造 . 
接 下 来 可 以 验证 P(X(Z) 三 a)=F(a) .如果 XY(n) 寺 对 ， 则 当 P(X =x)=0 时 有 
五. (Xx) 局 Fi(x) ， 这 意味 着 对 所 有 = 
X, (2)=inf{xe RIF, (7) 2} (7) =inf{xe RIF(Y) 7} 成 立 . 


二 项 分 布 与 高 斯 分 布 


图 3-8 比较 了 二 项 分 布 与 高 斯 分 布 . 
为 什么 这 两 种 分 布 如 此 相似 呢 ?” 注 意 ， 如 果 陡 =, B(N,p) ， 则 了 对 可 以 写作 


X=Y+…+Y,， 
其 中 是 参数 为 p 独立 同 分 布 的 伯 努 利 随 机 变量 .根据 中 心 极限 定理 ， 有 
Ny 


@ 见 第 2 章 练习 5 和 本 章 练习 9. 
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Binomial(100, 0.2) 


图 3-8 二 项 分 布 3(100,0.2) 与 高 斯 


分 布 N(20,16) 


其 中 o? = var(7)= EB(7?Y)-(E(7)) = p(1-p) 为 伯 努 利 分 布 的 方差 . 由 此 可 以 论证 
B(N,p) ~ NNp, No’”)= NNp, Np(l-p)). (3.5) 


对 于 p=0.2 日 N= 100 的 人 情况， 有 B000,0.2) = (20,16) ， 如 图 3-8 所 示 . 


3.3 多 路 复 用 与 高 斯 分 布 


下 面 将 二 项 分 布 的 高 斯 分 布 近 似 应 用 到 多 址 复 月 


有 当中. 回顾 一 下 前 面 寻找 最 小 值 


m 的 例子 . 我 们 采用 以 下 的 思路 ， 由 式 (3.5 ) 和 式 
(1) B(N,p)~ MN(Np, MU-D) (NV > 1) 
(2) P(N(14,0°)2 1+1.650) ~ 5% 

于 是 , 当 N 》 1 时， 


(3.2 ) 可 知 : 


P(B(N,p) > Np+1.65VNp(1— p)) ~ 5%. 


因此 ，m 的 最 小 值 是 


m= Np+1.65VNp(1—p) =20+1 


.65V16 ~ 27. 


从 图 3-8 中 也 可 以 看 出 ， 当 y=, 3B(100,0.2) 时 , v 几乎 不 可 能 大 于 27. 


3.4 置信 区 间 


在 上 一 节 的 计算 中 , 也 可 以 通过 观察 N 交 1 时 


Y() 个 活跃 的 用 户 来 猜测 p 的 取 


值 . 根据 3.3 节 中 (1) 与 Q) 的 思路 ， 以 及 高 斯 分 布 关 于 均值 的 对 称 性 ， 可 以 知道 对 于 以 


={B(N,p) > Np+1.65V Np —p)} 
以 及 
4 ={B(N,p) < Np-1.65YNp(l —p)}, 
每 个 事件 发 生 的 概率 都 接近 于 5%. 对 于 Y(N) =, B(N,p)/N ，41 与 4; 相 应 地 变 成 


={Y(N) p+1.65 全 DUS 
以 及 


= <p-165 号 ) 


因此 ， 事件 4 U4 的 概率 接近 于 10%， 这 个 事件 的 补 事件 概率 则 接近 于 90%， 所 以 


P(Y(N) -1.65 和 a 全 PU-D)) -90% 


尽管 不 知道 p 的 取 值 ， 但 是 可 以 通过 p(1-p) 三 1/4 得 到 


1 1 
P(Y(N)-0.83—— < p<Y(N)+0.83——)> 90%. 
元 0 


VN 


苦 N=100， 则 
P(Y(N)-0.08 < p<Y(N)+0.08) 三 90% . 
例如 ， 如 果 观 察 到 30% 的 用 户 是 活跃 的 ， 则 猜测 p 介 于 0.22 和 0.38 之 间 的 概率 是 
90%， 也 就 是 说 ，[Y(N) 一 0.08, Y(N)+0.08] 是 p 的 90% 置 信 区 间 . 
图 3-7 表明 ， 把 1.65 换 成 2 就 可 以 得 到 一 个 5% 的 置信 区 间 . 所 以 


1 
2 3.6 
| 6 


[Y(N)-— ,YN)+ 


VN 
是 p 的 95% 置 信 区 间 . 
那么 , N 取 值 多 大 才能 很 好 地 估计 出 p 的 值 呢 ?例如 希望 有 95% 的 概率 使 p 的 取 
值 在 +3% 的 范围 内 . 由 式 (3.6 )， 需 要 
二 3%, 即 V= 1089. 


VN 
因此 ，X(1089) 是 一 个 对 p 的 估计 值 ， 其 误差 在 3% 以 内 的 概率 是 95%. 上 面 的 这 些 结 
论 其 实 正 是 大 众 意见 调研 问卷 背后 的 理论 依据 . 
在 很 多 情况 下， 我 们 没 办 法 像 上 述 例子 一 样 利 用 方差 的 界限 . 此 时 ， 可 以 将 标准 
偏差 替换 为 样本 的 标准 偏差 . 也 就 是 说 ， 对 于 均值 为 4 的 独立 同 分 布 的 随机 变量 
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{X(),n 写 }， 


A 的 置信 区 间 如 下 : 


(on a i 
[1 -1.65 过 ,4 +1.65 志 ]=90% 置信 和 区间 
n Vn n Vn 


O， 


(ey i 
-2 一 ,人 +2 过 ]=95% 置信 区 间 ， 
[4 H i 9 司 
其 中 
XD)+…+ 了 了 
Pi 山 (n) 
n 
且 
汪汪 DX- in a _ 
: 17 一] 1 一 1 n " 
注意 ， 


这 里 的 分 母 是 n-1. 这 是 为 什么 呢 ? 通 常会 认为 样本 方差 是 样本 点 偏离 样 
本 均值 的 平方 值 算术 平均 ， 即 o ”第 一 个 表达 式 中 的 分 母 n， 事实 上 ， 如 果 希 望 


E(o, ) =o”， 即 得 到 没有 偏差 的 佑 计量， 应 该 除 以 n-1 而 不 是 n. 对 于 很 大 的 n， 显 
然 这 种 区 别 是 很 小 的 . 不 过 ， 还 是 应 该 先 把 为 什么 除 以 n-1 弄 清 楚 . 

为 了 便于 表达 , 设 E(X(n))=0, 令 o?=var(X(n))=E(X(n)) .注意 到 
mE(X(U) -1,)) 


=E((nX(D -XY)-X2)—. 


I 


X(n)’) 
=E((n-1) X(D))+E(X(Q2))++E(X(n) ) 
=(n-1)o +O-Do =n(n—-l)o’. 


对 于 第 二 个 等 式 ， 注意 交叉 项 E(X(i)X( 四 在 i 的 时 候 为 0 ( 因为 随机 变量 相互 独 
立 且 均值 都 为 0). 
因此 ， 


EXO-1)) = oY ECX -1)) = -Do 
所 以 ,对 的 无 偏差 的 估计 量 为 


人 二 
O， 二 


1 < 
Ra ee ). 


3.5 缓冲 器 


互联 网 是 一 种 包 交 换 网 络 . 主机 ( 例如 计算 机 ) 会 把 数据 包 发 送 给 交换 机 .每 台 
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交换 机 有 多 个 输入 和 输出 接口 ， 如 图 3-9 所 示 . 交换 机 将 接收 到 的 数据 包 存 在 缓冲 器 
中 ,然后 根据 它们 的 目的 地 通过 合适 的 接口 输出 .因为 数据 包 到 达 交 换 机 的 时 间 是 任 
意 的 ， 所 以 有 时 候 需要 通过 特定 接口 传输 的 数据 包 会 集中 在 某 段 时 间 内 到 来 . 这 种 时 
候 ， 交 换 机 来 不 及 处 理 所 有 的 数据 包 . 因此 ， 数 据 包 就 会 在 缓冲 需 中 累积 起 来 . 由 于 
数据 包 需 要 在 交换 机 的 队列 中 等 候 ， 这 就 造成 了 延 时 . 理解 这 种 队列 的 延 时 对 于 理解 


交换 机 的 原理 十 分 重要 . 下 面 来 研究 这 个 系统 的 一 个 简单 模型 . 
Be 


图 3-9 一 台 具 有 多 个 输入 和 输出 接口 的 交换 机 


首先 考虑 从 一 个 特定 的 输出 端口 传 出 数据 包 . 假设 交换 机 能 为 这 个 特定 的 输出 端 
口 保存 N+1 个 数据 包 . 交换 机 在 每 个 时 刻 可 以 传 出 一 个 数据 包 , 但 是 也 会 有 4(n) 个 新 
数据 包 进 入 .这 里 的 {4(n), nn 三 二 为 独立 同 分 布 的 随机 变量 . 
设 X(n) 表 示 在 时 刻 n 存储 的 数据 包 数 目 . 那么 根据 交换 机 的 处 理 方式 ， 有 
X(n+l)= max{0,min{X(n)+ A(n), N+1}—1}. 


也 就 是 说 ,4(m) 个 数据 包 到 达 交 换 机 并 与 X(n) 个 已 经 在 缓冲 器 中 的 数据 包 汇 合 . 当 
X(n)+4(n) 超 过 N+1 时 , 交换 机 需要 丢弃 无 法 储存 的 数据 包 . 然后 交换 机 会 在 缓冲 器 中 
的 数据 包 中 选择 一 个 进行 传输 .在 这 些 步 又 之 后 ， 绥 冲 器 中 有 X(n+1) 个 数据 包 . 

可 以 看 到 ,序列 {XY(n),n 宇 二 是 一 个 定义 在 七 := {0,4…,N} 上 的 马尔 可 夫 链 .如 
果 知 道 4(n) 取 值 为 的 概率 为 p(k 三 0) ,就 可 以 写 出 X(n) 的 转移 概率 . 如 果 Po > 0 且 
Pp; >0 ， 就 可 以 很 容易 地 验证 这 个 马尔 可 夫 链 是 不 可 约 及 非 周期 性 的 . 然后 可 以 计算 
马尔 可 夫 链 的 稳 态 分 布 x. 同时 可 以 知道 稳 态 分 布 中 的 x(k) 表示 马尔 可 夫 链 在 
了 (nn) = 天 状态 上 停留 的 长 期 时 间 比 例 . 
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A 


3-10” 当 4(m) 服 从 泊 松 分 布 P(0.9) 且 N=20 时 ， 对 队列 长 度 
A(n) 的 仿真 ( 也 表示 出 了 平均 队列 长 度 ) ( 另 见 彩 插 ) 


通常 来 说 , 求解 马尔 可 夫 链 的 平衡 方程 并 获得 解析 解 是 很 困难 的 . 下 面 来 看 一 个 
可 以 求解 的 情况 : 


SS 


0 1000 2000 


P(A,=2)=pH P(A,=0)=1-—p. 


如 果 4, =2 ,那么 缓冲 器 占用 量 会 增加 1; 如 果 4, =0 ,那么 缓冲 器 占用 量 会 减少 1 
种 情况 下 ，X(n) 的 转移 情况 如 图 3-11 所 示 . 


0 1 于 Ne | N-1 WN 


图 3-11 对 于 某 一 个 输出 端口 ， 缓 冲 器 占用 量 的 转移 概率 
平衡 方程 组 为 


7x(0)=(1-p)x(0)+(-p)7x(1) 
A(i)= pa(i-l)+(-p)x(i+l),l<i<N-1l 
X(N)= px(N—1)+ px(N). 


可 以 验证 以 上 问题 的 解 为 
A()=A(0)p',i=0,L…,N ,其 中 p = 一: 
由 于 所 有 的 概率 之 和 为 1， 有 
必 _ 1-p 
x(0) 2 2 i 


还 能 计算 出 稳 态 分 布下 X(tn) 的 均值 : 
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E(X(n)) = iz A(0)2ip' 


=pINp*™ —-(N+Dp” +1[d -pd-p"") 


以 上 近似 在 入 > 1 且 p<1, 即 p<1/2 时 有 效 ( 由 于 缓冲 右 容 量 有 限 , 近似 的 效果 受 
缓冲 器 装 满 的 概率 影响 ). 

图 3-12 给 出 了 在 p = 0.45 且 N = 20 时 ， 对 队列 的 仿真 . 它 同时 给 出 了 7 步 之 后 
队列 的 平均 长 度 : 随 着 的 增 大 , 平均 长 度 收敛 到 4.5=p/(1-2p). 注意 这 个 队列 几乎 
一 直 不 是 满 的 . 因此 可 以 认为 缓冲 器 的 容量 相对 较 大 . 这 也 是 可 以 在 ECX(n)) 表 达 式 中 
让 入 ~>oo 的 原因 . 


| | 


hal 
1 
Wh | | " a | ) | EF 


图 3-12 对 p=0.45 有 日 N=20 下 队列 的 仿真 ( 男 见 彩 插 ) 


那么 数据 包 会 在 交换 机 中 等 待 多 长 时 间 呢 ?在 时 刻 n， 交 换 机 中 有 Xn) = 个 数 
据 包 .假如 有 2 个 数据 包 到 达 且 k=0, 那 么 第 一 个 数据 包 在 同一 时 刻 n 从 交换 机 输出 ， 
第 二 个 数据 包 在 时 刻 nt1l 从 交换 机 输出 ,于 是 平均 延 时 就 是 (0+1)/2 = 0.5. 如 果 >0， 
那么 第 一 个 数据 包 在 时 刻 ntk 从 交换 机 输出 , 第 二 个 数据 包 在 时 刻 ntk+1 从 交换 机 输 
出 ,平均 延 时 为 tt0.5. 因此 , 平均 延 时 为 X(n)+0.5. 同时 ,由 于 有 2 个 数据 包 到 达 的 
概率 不 依赖 于 现在 的 队列 长 度 ， 平均 来 说 ， 到 达 的 数据 包 发 现 队列 中 已 经 有 个 数据 
包 的 概率 等 于 稳 态 概率 Xn) =k， 由 此 可 以 总 结 出 ， 每 个 数据 包 的 平均 延 时 大 约 是 7: 


+0.5. 


T= 


这 时 候 ， 结 合 数 据 包 的 平均 到 达 率 是 =2p 可 以 发 现 
E(X,)=AT. 
也 就 是 说 , 队列 中 的 平均 积压 量 是 到 达 率 与 平均 延 时 的 乘积 . 这 是 利 特 尔 定理 ( Little’s 
Law ) 的 一 个 具体 例子 ， 出 自 利 特 尔 发 表 于 1961 年 的 文章 “A Proof for the Queuing 
Formula: L=AW ”. 
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定理 3.4 ” 利 特 尔 定 理 
在 一 个 排队 系统 中 ( 弱 假 设 下 )， 
L=AT, 


其 中 艺 是 系统 中 客户 数目 的 平均 值 ， 人 是 客户 的 平均 到 达 率 ， 了 是 客户 在 系 
统 中 花费 的 平均 时 间 . 


图 3-13 约翰 利 特 尔 (1928 一 ) 


可 以 这 样 直观 地 理解 这 个 定理 : 考虑 一 个 数据 包 在 等 待 了 个 单位 时 间 以 后 离开 交 
换 机 的 情况 . 在 它 等 待 的 时 间 里 ,平均 有 47 个 数据 包 到 达 . 所 以 交换 机 中 的 平均 积 
压 量 为 27 . 

事实 上 , 利 特 尔 定理 广泛 地 适用 于 各 种 系统 ， 其 至 包括 不 按 数据 包 到 达 顺 序 进行 
处 理 的 系统 . 

可 以 这 么 理解 该 结论 . 假设 每 个 数据 包 需 要 为 它 在 交换 机 中 停留 的 每 一 单位 时 间 
付 1 元 钱 . 如 果 数 据 包 平 均 在 交换 机 中 停留 了 时 间 ,那么 每 个 数据 包 平 均 支 付 了 元 . 因 
为 每 单位 时 间 有 14 个 数据 包 通过 交换 机 ,， 并且 每 一 个 数据 包 平均 支付 了 元 ,所 以 交换 
机 每 单位 时 间 收 入 47 元. 现在 考虑 另 一 种 计算 交换 机 收 款 率 的 方法 . 在 任意 时 刻 ， 
交换 机 中 平均 有 工 个 数据 包 ， 因 此 每 个 时 刻 交 换 机 的 收 款 率 为 L( 因为 数据 包 每 等 待 
一 个 单位 时 间 就 付 一 个 单位 的 钱 ) 由 此 可 得 工 =47 . 


于 到 


3.6 多 址 访问 


考虑 如 图 3-14 所 示 的 场景 : 很 多 智能 手机 共享 同一 个 Wi-Fi 热点 , 并 通过 它 传 输 
数据 包 . 

当 多 个 智能 手机 同时 传输 的 时 候 ， 它 们 会 相互 干扰 并 产生 冲突 . 因此 ,协调 手 机 
之 间 的 传输 十 分 关键 . 下 面 来 讨论 一 种 能 够 协调 这 些 传输 并 且 成 功率 很 高 的 简单 方 
案 . 我 们 用 一 个 离散 时 间 模 型 来 对 系统 进行 建 模 . 
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假设 一 共有 N 个 设备 .在 n(n 三 1) 时 刻 , 每 个 设备 独立 地 以 概率 p 进行 数据 传输 .这 
种 传输 方法 最 早 是 由 诺 曼 ' 艾 布 拉 姆 森 在 20 世纪 60 年 代 后 期 为 Aloha 网 络 提出 的 ， 
被 称 为 随机 化 多 址 访问 ( Randomized Multiple Access ). 


图 3-14 智能 手机 共享 同一 个 Wi-Fi 热点 


在 这 个 系统 中 ， 时 刻 n 的 传输 数目 X(n) 服 从 B(N, p) (参见 式 (A.2))， 只 有 一 个 
设备 时 的 传输 概率 为 


P(X(n)=1)= NPQ-p) 


图 3-15 诺 曼 : 艾 布 拉 姆 森 (1932 一 ) 


以 上 概率 在 p= LV 取 最 大 值 . 这 也 就 是 系统 支持 的 最 大 流量 ， 记 作 1 : 


4 = ty 六 二 0.36. 
N e 


在 上 面 的 推导 中 ， 用 到 了 如 下 结论 : 
(2 =e，N 将 1 (3.7) 
N 
因此 ， 这 个 方法 的 最 大 传输 率 约 为 36%. 不 过 , 这 要 求 p= LUN, 意味 着 每 个 设备 
都 需要 知道 系统 中 有 多 少 设备 计划 进行 传输 〈 即 活跃 用 户 数量 ) 在 下 一 章 里 ,我们 
将 会 讨论 一 种 不 需要 知道 这 些 信息 的 自 适 应 方法 . 


3.7 小 结 


了 


口 高 斯 随机 变量 Nu,o7) 
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口 中 心 极限 定理 

口 置信 区 间 

口 缓冲 器 : 平均 积压 量 、 延 时 ; 利 特 尔 定律 
口 多 址 访问 协议 


重要 方程 与 公式 
Na) 的 定义 fi = ao)" exp{-(x—1)°/(20°)} 定义 3.1 
中 心 极限 定理 (Ktt Em) /Nn SNM,o’) 定理 3.2 
95% 和 置信 区 间 (Xi +t) /nt20 3.4 节 
利 特 尔 定律 L=AW 定理 3.4 
指数 近似 (1-a/n)’ xexp{-a} 式 (3.7) 


3.8 参考 资料 


对 缓冲 器 的 分 析 是 排队 论 的 一 个 简单 应 用 . 关于 排队 论 在 计算 机 以 及 通信 系统 中 
的 模型 请 参考 Kleinrock 的 Oueueing Systems( 卷 1 和 卷 2 )，Kelly 的 Reversibility and 
Stochastic Networks 一 书 对 排队 网 络 的 理论 有 很 棒 的 解释 ， 并 已 有 电子 书 . Kelly 和 
Yudovina 的 Lecture Notes on Stochastic Networks 探讨 了 最 新 的 成 果 ， 是 一 份 很 精彩 的 课 
件 . Srikant 和 Ying 的 Communication Networks: An Optimization, Control, and Stochastic 
Networks Perspective 解释 了 网 络 优化 以 及 其 他 性 能 评估 方面 的 问题 .Walrand 的 4n 
Introduction to Queneing Networks 中 采用 的 方法 也 许 比较 难 懂 ， 但 是 很 有 帮助 . 


3.9 练习 


1. 写 一 段 Matlab 代码 来 计算 参与 某 项 提案 民意 调查 所 需 的 人 数 ， 要 求 至 少 有 
1-B 的 概率 使 得 估计 中 赞成 人 数 比 例 的 误差 在 a 之 内 . 假设 已 知 pe[0.4,0.7] ,使 用 
方差 的 上 界 进行 计算 . 

2. 假设 开展 一 项 民意 调查 ,估计 支持 候选 人 Whatshisname 当选 下 一 届 总 统 的 民 
众 比 例 p， 其 中 调查 了 Ni 个 受过 大 学 教育 的 人 入; 个 没 受 过 大 学 教育 的 人 ， 支 持 
Whatshisname 先生 当选 的 概率 分 别 为 B(P) 和 B(p,) . 在 总 人 口 当 中 ， 受 过 大 学 教育 
的 人 所 占 比 例 为 9. 

(a) 使 用 方差 的 上 界 来 计算 p 的 95% 置 信 区 间 . 

(b) 如 果 NM+N = N， 应 当 怎 样 选取 Ni 和 NN,， 才 能 够 使 得 这 个 区 间 的 长 度 最 小 ? 

3. 抛掷 一 枚 均匀 的 硬币 10 000 次 ， 正 面 朝 上 多 于 5085 次 的 概率 大 约 是 : 


45 


LA 
C.4 
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口 15% 
口 10% 
DQ 5% 
口 2.3% 
口 1% 
4. 用 Matlab 对 缓冲 需 进 行 仿真 , 数据 包 到 达 的 过 程 服从 参数 为 4 的 伯 努 利 分 布 ， 
为 每 个 数据 包 提供 的 服务 时 间 服 从 参数 为 的 几何 分 布 . 画 出 仿真 图 并 计算 缓冲 器 的 
平均 数据 包 积 压 量 . 


5. 考虑 一 个 能 够 并 行 传输 M 个 数据 包 的 缓冲 器 ， 也 就 是 说 ， 当 缓冲 器 内 有 加 个 
数据 包 的 时 候 ， 缓 冲 器 能 传输 min fm, M0 个 数据 包 ， 并 且 每 个 数据 包 的 传输 在 下 一 个 sa 


时 间 节 点 结束 的 成 功 概率 是 yj .在 每 一 个 时 刻 ， 有 一 个 新 数据 包 到 达 的 概率 是 4 . 

(a) 这 个 马尔 可 夫 链 的 转移 概率 是 多 少 ? 

(b) 若 和 希望 系统 稳定 ， 即 缓冲 器 中 的 数据 包 平 均值 为 有 限 值 ， 应 当 怎 样 为 4 、M 
和 双 取 值 ? 

(c) 用 Matlab 为 这 个 系统 仿真 . 

6. 为 了 估计 一 枚 硬币 正面 向 上 的 概率 疡 ,将 其 抛掷 环 次 ,发 现 有 风 次 正面 向 上 . 估 
计 值 为 B= Swz. 通过 选择 样本 大 小 n 来 保证 


P(|S, /n-pl= 6)<56. 

(a) 根据 切 比 雪夫 不 等 式 ,n 的 取 值 应 当 为 多 少 ( 使 用 方差 的 上 界 进行 计算 ) ? 

(b) 当 & 变 为 ae/2 时 , n 的 取 值 如 何 变 化 ? 

(c) 当 6 变 为 6/2 时 ,结果 又 会 如 何 变 化 ? 

(qd) 将 这 里 的 取 值 与 根据 中 心 极限 定理 得 出 的 取 值 作 比 较 . 

7. 设 世 ,过 1 独立 同 分 布 于 UT0, 1], 设 Z,= 凶 +…+ 了 , ， 那 么 P(Z, >n) 是 多 
大 ?如 果 用 中 心 极限 定理 来 推导 ， 这 个 概率 的 估计 值 是 多 大 ? 

8. 考虑 一 个 缓冲 器 . 假设 每 2 秒 钟 有 一 个 数据 包 到 达 ， 而 传输 一 个 数据 包 需 要 1 
秒 钟 ( 若 缓 冲 器 不 为 空 则 一 直 进 行 传输 )， 每 个 数据 包 在 队列 中 的 平均 延 时 是 多 少 ? 
现在 , 假设 每 过 20 秒 会 有 10 个 数据 包 到 达 ， 重 新 考虑 以 上 问题 . 这 个 例子 说 明 ， 队 
列 的 延 时 取决 于 数据 到 达 过 程 的 爆发 性 . 

9. 证 明 : 如 果 Xn) 依 概率 收敛 到 耳 ， 那么 (nn) 二 对 即 依 分 布 收 伊 ). 

提示 :假设 PX= 罗 =0. 为 了 证 明 P(X(n) 三 x) 一 P(X 三 xx) ,要 注意 若 |X(n)-X| 志 e 
且 X<x, 则 X(n) 三 XY+e. 


主题 : 特征 方程 ， 中 心 极限 定理 的 证 明 ， 适 应 性 的 载波 侦 听 多 址 传输 


背景 知识 : 附录 A， 第 3 章 


在 第 3 章 中 , 我 们 应 用 中 心 极 限定 理 算出 了 可 以 安全 共享 电缆 或 连接 线 的 用 户 数 
目 . 在 这 一 章 里 ,我 们 将 证 明 这 一 定理 . 一 个 关键 的 数学 工具 是 特征 方程 ， 它 为 研究 
独立 随机 变量 的 和 提供 了 简便 的 方法 . 


4.1 特征 方程 


在 证 明 中 心 极限 定理 之 前 ， 首 先 给 出 特征 方程 的 解释 . 
定义 4.1 特征 方程 
随机 变量 蕊 的 特征 方程 定义 如 下 : 


br(W) = E(e™ ),u en, 


办 (0=| eo" fxd , 


这 意味 着 (nu) 是 fy(x) 的 傅 里 叶 变 换 . 由 健 里 叶 变 换 的 性 质 可 知 ， 由 特征 方程 就 可 

以 唯一 确定 相应 的 概率 密度 函数 . 
下 面 的 结论 可 以 由 特征 方程 推导 而 来 ， 是 一 个 非常 有 用 的 结论 . 
定理 4.2 .4/(0,1 的 特征 函数 


设 人 =, WC0,1) ， 则 


a C1y 
证 明 于 
iux 1 下 
-| 二 由 
因此 ， 
il 二 1 2 
和 办 (0) | ixe Be dx=-| ie Re 
1 二 mu 1 亏 
a de = 一 | 。 有 dx 
= 一 从 (2) 
这 里 第 三 个 等 式 由 分 部 积分 法 得 到 .因此 ， 
d du” 
BG 0)) -=u = 
所 以 
a 
因为 办 (0) = El(e*)=1, 可 知 4= 1， 这 就 证 明了 式 (4.1). * 


下 面 来 证 明 中 心 极限 定理 . 


4.2 中 心 极 限定 理 的 证 明 (概要 ) 


为 了 研究 相互 独立 的 随机 变量 的 和 ， 要 计算 它们 的 特征 函数 . 设 
X(D)+…+X(n) -nn 
了 hk 
(n) i 


,7 之 1， 


我 们 有 
bn) = Ee™")=ET TL,, ep) 


-Eee 人 六 多 本 


= 0) 
(on 


20°n 
=[1—u’? /(2n)+o(l/n)y > exp{-u’ /2},n—>o%. 


的 泰勒 展开 : 


1 
e’ zl+at+—a’. 
2 


第 4 章 


多 路 得 用 一 久 (49 


第 三 个 等 式 成 立 是 因为 Xm) 是 独立 同 分 布 的 , 而 第 四 个 等 式 成 立 是 由 于 指数 函数 


因此 ，X(n) 的 特征 函数 收敛 到 了 M0, 1) 随 机 变量 的 特征 函数 . 这 意味 着 它们 的 北 


变换 ， 即 Y(n) 的 概率 密度 也 将 收敛 到 一 个 /M0, 1) 随 机 变量 的 概率 密度 .最 后 一 步 推 


导 可 以 严格 证 明 ， 这 里 从 略 . 


4.3 0.1) 的 高 阶 纸 


* 


可 以 利用 服从 M0, 1) 分 布 的 随机 变量 邓 的 特征 函数 来 计算 它 的 高 阶 矩 . 第 一 步 ， 


应 用 指数 函数 的 泰勒 展开 ， 


br) = Ele™) = ED Cu)) = D0) EX) 


Rly 
有 


有 一 步 ， 再 次 应 用 指数 函数 的 泰勒 展开 ， 
b= -Dy 
第 三 步 ， 比 较 上 面 两 个 式 子 中 ww" 项 的 系数 可 以 发 现 


1 ;271 2m i eh 
Bi 
所 以 
am (2m)! 
Se )= 2 
例如 ， 
2 2 a 4 
E(X’)= i =1, E(X = =3. 


最 后 ， 我 们 注意 到 x 的 奇 次 震 项 系数 一 定 为 0， 因此 
EX”) =0, m=0,1,2... 
(这 由 f(x) 的 对 称 性 很 容易 得 到 . ) 我 们 还 得 型 
var(X)=E(X’)-E(X) =1. 


Le 


Q@ 这 里 应 用 到 了 2" =(-1)”. 


(4.2) 
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4.4 两 个 独立 同 分 布 于 入 (0,1) 的 随机 变量 平方 和 


设 蕊 和 了 是 两 个 独立 同 分 布 于 .AM0, 1) 的 随机 变量 . 下面 要 证 明 
Z=X +Y’ =, Exp(l/2). 


设 0 是 向 量 (%, 的 倾角 , 设 R =XX +YY .如 图 4-1 所 示 ， 我 们 得 到 
dxdy = rdrd6. 


rdrdg .7d0 
J 


图 4-1 在 极 坐 标 变 换 x=rcos(9) 和 y=rsin(9) 下 ， 有 dxdy =yrdrdg .也 就 是 
说 ，[r,r+dr]x[9,96+d0] 在 (x, 坐标 平面 上 覆盖 了 rdrd9 的 面积 


为 E(Z)=E(X?)+ BE(7Y)=2，, 所 以 如 果 Z 是 服从 指数 分 布 的 , 它 的 参数 一 定 是 
1/2. 下 面 来 证 明 Z 是 指数 分 布 的 . 我 们 有 


2 pA 
fro Pdrdy = for yrdrd0 = exp{—2 > jrdrdb 
nA 


a exp{ a El 
2 克 2 2 克 2 


=: fo(O)dOx fr(r)dr, 


) 
才 


f,(0)= L100 <0<2x}, flr)=rexp ee 三 0}. 
2 之 


因此 , (%, ) 的 倾角 9 和 长 度 R=VX? ?+7? 是 相互 独立 的 , 分别 具有 上 述 的 分 布 . 对 于 
= R? =: g(R) ， 根 据 定义 ， 当 v 宇 0 时 ， 


= i rexpf 人 = 了 expi 9 


这 表明 0 与 =X*+ 站 相互 独立 . 前 者 均匀 分 布 在 [0,2x]， 后 者 服从 均值 为 2 的 指数 
分 布 . 
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4.5 特征 函数 的 两 个 应 用 
我 们 已 经 用 特征 函数 证 明了 中 心 极 限定 理 . 下 面 介绍 两 个 更 有 趣 的 应 用 . 


4.5.1 泊 松 分 布 作为 二 项 分 布 的 近似 


均值 为 4 、 服 从 泊 松 分 布 的 随机 变量 X 可 以 用 于 近似 n 一 w 时 的 二 项 分 布 
B(n,41n) 随机 变量 XY, .要 证 明 这 一 点 ， 注 意 到 : 
E(exp{iuX,})= E(exp{iu(Z, (1) +:…+2,(n))}), 
其 中 的 随机 变量 {2Z,0),…,2,(n)} 是 独立 同 分 布 的 伯 努 利 随机 变量 ,均值 为 4/n. 
此 ， 


E(exp{iuX,})=[E(expt{iu(2,(D)})Y = er -DT. 


上 述 第 二 个 等 式 用 到 了 如 下 结论 : 如 果 Z =, 8(p) ， 则 
Elexp{iuZ2}) =(-p)e+pe” =1+ p(e” -1). 


同时 ， 由 于 


P(X = 由 = 乞 人 7 以 及 ef 2 


m=0 m! 
我 们 有 
E(exp{iuX})= 福全 om {de”” =exp{A(e” -1D} 


可 以 看 到 ， 


a 
人 一 6” ,711 一 oo， 


由 此 得 出 多 项 式 分 布 的 特征 函数 收敛 到 泊 松 分 布 的 特征 函数 . 因此 泊 松 分 布 可 以 很 好 
地 近似 二 项 分 布 . 


4.5.2 指数 分 布 作 为 几何 分 布 的 近似 


一 个 指数 分 布 随 机 变量 可 以 作为 一 系列 服从 几何 分 布 随机 变量 的 近似 . 设 
=, Exp(4) 是 X=G(4/n)， 则 


了 部 全 蕊 ， 依 概率 收敛 . 


为 了 说 明 这 一 点 ， 首 先 由 指数 分 布 的 性 质 得 到 


f(x)=Ae “lx 0}. 
同时 , 者 的 实 部 为 正 ， 则 


因此 ， 
4 


A-iu 


E(e™) 三 | 三 


另 一 方面 ， 马 为 几何 分 布 ， 因 此 
P(X,=m)=(1-p)" p,m 全 0. 


El(expt{iu 寺 芝 六 二 > (1—p)” pexpt{ium/n} 
n 


= pY [0 p)exp{iu /n}]” = 


A/n 
1—(1—A/n)expt{iu/n} 

加 1 
n(l—(1—A/n)+iu/n+o(l/n))) 

1 

| A-iut+ol/n)’ 


其 中 ol/n) 王 0,n 一 ww ， 从 而 证 明了 上 述 结论 . 


Pp 
1—(1— p)expt{iu/n} 


4.6 误差 函数 


在 置信 区 间 的 计算 中 进行 如 下 近似 : 
oo 二 P(X >x)， 其 中 对 =, N10,D. 
这 里 函数 Co 被 称 为 误差 函数 . 它 的 值 可 以 通过 Matlab 或 者 相应 的 手机 应 用 进 
行 计算 . 下 面 给 出 的 界限 ( 见 图 4-2 ) 也 很 有 用 . 
定理 4.3 ”误差 函数 的 办 


1 


XV2NA 


2 2 
<Q < exp{- 7}, vx >0. 0 


x 1 i 
1+x” V2x . 
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图 4-2 误差 函数 Q(x) 及 其 上 下 界 ( 男 见 彩 插 ) 


证 明 误差 限 数 的 上 界 可 以 如 下 导出 . 当 x>0 时， 
0 1 poy 


dy = e 2dy 


A 由 =-- 记 | 


对 于 下 界 ， 当 x> 0 时 ， 


下 全 大 = 1 
7) | 0 2 dy 


x 


oo 本 
=-| Lo 
x 了 这 


4.7 自 适 应 多 址 访问 


在 3.6 节 中 ， 我 们 介绍 了 随机 化 多 址 访问 机 制 . 在 该 机 制 中 ， 位 用 户 在 任意 


时 间 节 点 独立 地 以 概率 WN 进行 信号 传输 ( X 为 活跃 用 户 个 数 )， 系 统 传输 成 功率 大 


约 是 1/e< 36% . 不 过 ， 该 机 制 要 求 用 户 知道 系统 中 共有 多 少 活跃 月 


户 : 


为 了 使 方案 能 够 自动 适应 不 同 数量 的 活跃 用 户 数 , 让 传输 设备 在 时 间 节 点 n 按照 


下 述 方法 调整 传输 的 概率 p(n): 


53 


侯 和 EECS 应 用 概率 论 


| 若 X(m)=1 
ap(n), 若 X(n)>1 


pln+l)= 
[me =0. 


在 这 个 方法 中 ，a 和 4。 为 常数 ,满足 ae (0,1) 昌 5>1. 这 里 的 思路 是 ， 如 果菜 时 
刻 没有 用 户 进行 传输 , 则 下 一 时 刻 增 大 p(n); 如 果 多 个 用 户 的 传输 产生 冲突 , 则 使 p(n) 
减 小 .这 个 方案 是 由 布 鲁 


斤 . 哈 耶 克 ( Bruce Hajek ) 和 Van Loon 于 1982 年 提出 的 . 


4-3 布鲁斯 哈 耶 克 
图 4-4 展示 了 成 功率 7 随时 间 的 变化 . 这 里 ， 


7 = i =]}. 
Nn=0 


200 400 600 


800 1000 1200 


图 4-4 在 自 适应 多 址 访问 机 制 下 ， 吞 吐 率 关 于 时 间 的 函数 ( 另 见 彩 插 
图 中 应 用 的 参数 是 a= 0.8 和 2 = 1.2. 可 以 看 到 ， 知 中 


EF 率 达到 了 N=40 和 N= 100 
时 的 最 优 值 ， 因 此 ， 这 个 方案 可 以 自动 根据 活跃 的 设备 数目 进行 调节 . 


Ne 


邮 


第 4 章 多 路 复 用 一 她 


4.8 人 小结 


口 特征 函数 

口 中 心 极限 定理 的 证 明 

口 高 斯 随机 变量 的 高 阶 矩 

口 高 斯 随机 变量 的 平方 和 

口 泊 松 分 布 作为 二 项 分 布 的 近似 
口 指数 分 布 作为 几何 分 布 的 近似 
口 自 适 应 多 址 访问 协议 


重要 方程 与 公式 
特征 函数 br (1) = Elexp{iuX)) 定义 4.1 
0, 1) 分 布 exp{—u? /2} 定理 4.1 
人 M0, 1) 分 布 的 高 阶 矩 E(X™)=(2mY (m!2") 式 (4.2) 
误差 函数 P(A10,1) > 如 上 下 界 定理 4.3 


4.9 参考 资料 


中 心 极限 定理 是 一 个 经 典 的 概率 结论 ， 可 以 参阅 Bertsekas 和 Tsitsiklis 的 
Introduction to Probability, Grimmett 和 Stirzaker 的 Probability and Random Processes 
或 Billingsley 的 Probability and Measure , Third Edition. 


4.10 练习 


1. 设 习 是 一 个 服从 N(0, 1) 分 布 的 随机 变量 .可 以 推 知 E(X*)=1，E(X”)=3. 

(a) 用 切 比 雪夫 不 等 式 推导 P(X| > 2) 的 一 个 上 界 . 

(b) 用 关于 式 的 四 阶 矩 的 不 等 式 来 推导 P(|X|> 2) 的 上 界 . 可 以 找到 更 小 的 上 界 吗 ? 

(c) 将 上 述 结论 与 已 知 的 N(0, 1) 随 机 变量 知识 作 比 较 . 

2. 为 哈 耶 克 的 随机 多 址 访问 方案 写 一 段 Matlab 仿真 . 假设 有 20 个 用 户 , 在 任意 
的 时 间 节 点 ， 每 个 用 户 都 有 4/20 的 概率 收 到 新 信号 ， 这 些 用 户 根据 前 文中 陈述 的 规 
则 更 新 其 传输 概率 .请 画 出 所 有 用 户 缓存 的 积压 量 随时 间 的 变化 . 

3. 考虑 这 样 一 种 多 址 访问 方案 : 系统 中 的 NN 个 用 户 独 立地 以 概率 p 传输 用 以 预 


ED 
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定 信道 的 数据 包 . 这 些 数据 包 传输 所 需 时 间 为 1 个 时 间 单 位 . 如 果 这 些 用 以 预定 的 数 
据 包 发 生 冲 突 或 者 没有 用 户 传输 预定 数据 包 ， 用 户 会 在 下 一 个 时 刻 再 次 尝试 传输 .如 
果 预 定 成 功 , 即 只 有 1 个 用 户 传输 用 以 预定 的 数据 包 , 则 该 用 户 会 在 接 下 来 的 天 个 时 
间 单 位 内 独占 信道 并 进行 数据 传输 . 当 这 次 传输 结束 后 , 所 有 的 用 户 重复 以 上 过 程 . 计 
算 此 机 制 下 该 信道 能 够 传输 的 数据 量 . 注意 : 这 个 方案 叫 作 预约 ALOHA. 

4. 设 式 是 一 个 随机 变量 ， 均 值 为 0， 方差 为 1. 证 明 E(X”) 宇 1. 

提示 : 利用 E((X” -1) ) 宇 0. 

5. 设 式 和 了 是 两 个 随机 变量 . 证 明 : 

(E(XY))’ < E(X’)E(Y’). 
这 就 是 柯 西 - 施 瓦 次 不 等 式 . 
提示 : 利用 E((4X-7)?) 宇 0，, 令 4=E(XY)/E(X’). 


应 用 : 通过 物理 媒介 传送 比特 数据 
主题 MAP，MLE， 假 设 检验 


背景 知识 : 附录 A，3.2 节 


数字 链 路 由 发 射 机 和 接收 机 组 成 , 通过 物理 媒介 传送 比特 . 这 些 媒介 可 以 是 电缆 、 
电话 线 、 激 光束 、 光 纤 、 电 磁 波 甚至 是 声波 . 


图 5-1 一 个 模拟 通信 系统 


一 个 简单 的 系统 "可 由 一 根 电话 线 构成 .传送 比特 0 的 时 候 ， 发 射 机 在 电话 线 末 
端 将 电压 设 为 -1 伏 并 持续 了 秒 ; 而 传送 比特 1 的 时 候 ， 则 将 电压 设 为 +1 伏 并 持续 
了 秒 . 接收 机 会 测量 线路 未 端的 电压 值 . 如 果 接 收 机 测 得 的 电压 为 负 ， 它 会 认为 发 射 
机 送出 比特 0; 如 果 为 正 ， 则 认为 发 射 机 送出 比特 1. 由 于 传输 过 程 中 可 能 会 受到 干 
扰 发 生 错 误 , 接收 机 接收 到 的 信号 往往 带 有 噪声 并 且 信号 的 强度 会 有 一 些 衰减 . 因此 ， 
0 可 能 会 被 误 认 为 1， 反 之 亦 然 . 为 了 减少 这 种 错误 的 发 生 ， 人 们 设计 了 不 同 的 编码 
方法 . 

本 章 探 讨 数字 链 路 的 工作 原理 和 特性 . 首先 讨论 贝 叶 斯 准则 和 贝 叶 斯 决策 理 
论 . 然后 将 这 些 想 法 应 用 到 一 个 简单 的 通信 链 路 模型 上 . 接 下 来 ,学 习 一 种 能 使 信号 


GD 这 里 省 略 了 很 多 收发 端 进行 时 间 同 步 的 细节 


传输 更 快 的 编码 方法 . 最 后 ， 本 章 对 实际 系统 采用 的 调制 和 检测 系统 进行 讨论 ， 其 中 
包括 异步 数字 用 户 线路 和 有 线 调 制 解 调 融 . 


发 射 器 
信号 源 源 编码 器 | 调制 器 
言 道 
ym | 吕 | | 信道 | 
接收 端 源 解码 器 解码 如 解 调 器 
接收 器 


图 5-2 ”数字 链 路 的 组 成 


5.1 检测 与 贝 叶 斯 准则 


检测 的 定义 是 接收 机 接收 到 一 个 信号 5 并 试图 辨别 发 射 机 发 送 的 内 容 . 对 于 这 个 
问题 ， 我 们 首先 通过 一 个 一 般 性 的 模型 进行 探讨 ， 然 后 讨论 具体 的 情况 . 


5.1.1 贝 叶 斯 准则 


考虑 下 面 的 基本 模型 : 有 X 个 排他 的 起 因 能 导致 一 个 具体 的 症状 出 现 . 这 里 的 排 
他 性 指 的 是 每 次 只 有 一 个 缘由 发 生 . 每 个 起 因 i 发 生 的 先 验 概率 为 p;， 起 因 i 发 生 以 
后 观察 到 症状 的 概率 为 g;， 于 是 


N 
p; 0, 7p,=1,g, el[0,1l. 
=} 


可 能 原因 


先 验 概率 Cc、 


图 5-3 ”症状 和 可 能 导致 这 一 症状 的 所 有 起 因 
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贝 叶 斯 准则 可 以 用 于 计算 由 起 因 i 引起 症状 的 后 验 概率 x;. 令 Ci; 表示 症 状 由 起 因 
i 引起 ， 并 令 5S 表示 观察 到 症状 . 那么， 


z()= HC,1S]=2 Se ) 


”PCAS) PIS|GIPC,) 
3 ,PCC, Ans) DY PIS|C,]PCC,) 
_ pg 
> Pjgd;j 
这 一 结果 非常 重要 ， 下 面 将 其 以 定理 的 形式 叙述 出 来 . 
定理 5.1 贝 叶 斯 准则 


设 可 观察 到 的 症状 5S 及 个 排他 的 可 能 原因 Ci， 其 中 每 个 Ci 的 先 验 概 
率 为 ps， 且 Ci 导致 症状 5 发 生 的 概率 为 g， 那 么 ， 观测 到 的 症状 5S 由 Ci 引 
起 的 后 验 概率 zi 为 


克 二 Didi (5.1) 


> Pig; | 


这 个 准则 十 分 简单 ， 但 是 却 是 一 个 有 关 观 测 现象 如 何 影 响 我 们 认 知 的 经 典 例子 . 


图 5-4 托马斯. 贝 叶 斯 (1701 一 1761 ) 
5.1.2 最 大 后 验 概 率 (MAP) 与 最 大 似 然 估计 (MLE) 


对 于 这 个 模型 而 言 ， 可 以 看 到 最 有 可 能 导致 症状 出 现 的 原因 可 以 如 下 确定 : 
MAP = arg max Ax, = arg max p,9,. 


我 们 称 之 为 给 定 症状 原因 的 MAP (Maximum A Posteriori ， 最 大 后 验 概 率 ) 估计 . 
这 里 的 argmax 含义 如 下 : 若 1) 是 一 个 函数 ,那么 argmaxh(x) 则 是 使 有-) 取 最 大 
值 的 变量 x， 所 以 , 若 x* =argmax, h(x) ， 则 h(x*) 宇 h(x) 对 所 有 x 均 成 立 . 
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因此 ，MAP 代表 的 是 最 有 可 能 的 后 验 原因 . 如果 所 有 的 先 验 概率 都 相等 ， 也 就 
是 对 于 所 有 i 都 有 pi;= 1/V, 那么 MAP 代表 q; 最 大 的 原因 . 通常 来 说 , 最 大 化 gq; 的 估 
计 叫 作对 给 定 症 状 原因 的 MLE (Maximum Likelihood Estimate， 最 大 似 然 估计 )， 也 


就 是 ， 


MLE = arg max 9i . 
MLE 是 最 可 能 导致 症状 发 生 的 原因 . 
MAP 与 MLE 的 一 般 定义 如 下 . 
定义 5.2 MAP 与 MLE 


令 (人 及 为 离散 随机 变量 ， 那 么 
MAP[X|Y=y]=argmax PI[X =x|Y=y] 
MLE[X|Y=y]=argmax PIY =y|X=x]. 


后 面 会 看 到 ， 这 些 定义 可 以 很 自然 地 延伸 到 连续 情况 . 


5.1.3 二 元 对 称 信道 


现在 将 MLE 和 MAP 的 概念 应 用 到 简化 的 通信 和 链 路 模型 中 . 图 5-5 给 出 了 这 个 通 
信和 模型 ， 叫 作 二 元 对 称 信道 ( BSC ). 


图 5-5 ”二 元 对 称 信道 


在 这 个 模型 中 , 发 射 机 发 送信 号 0 或 1, 而 接收 机 以 1-z 的 概率 接收 发 送 的 比特 ， 
以 jp 的 概率 接收 相反 的 比特 ， 即 信道 出 错 的 概率 为 p， 每 个 比特 出 现 的 错误 是 独立 同 
分 布 的 . 

如 果 p=0 或 p=1， 那么 可 以 准确 地 还 原 每 一 个 接收 到 的 比特 . 如果 p= 0.5， 则 
信道 的 输出 独立 于 输入 . 这 种 情况 下 ,没有 任何 有 用 的 信息 通过 信道 . 那么 ,在 其 他 
情况 下 会 发 生 什么 呢 ? 

记 XE {0, 1} 为 信道 的 输入 , YE {0, 1} 为 其 输出 . 假设 观察 到 Y=1 且 已 知 PC=1)=a 
和 P(X=0) = 1-a. 我 们 会 得 到 图 5-6 所 示 的 结 


第 5 章 数字 链 路 一 A 


MAP[ X|Y=1]| 


4 MAP| X|Y =0 
ol 


0 pr” O03 =p 


图 5-6 ”二 元 对 称 信道 的 最 大 后 验 估计 .a = P(X = 1), p 是 信道 出 错 的 概率 
定理 5.3 二 元 对 称 信道 的 MPA 和 MLE 
对 于 p<0.5 的 二 元 对 称 信道， 


MAP[IXMY=0]=1{a>1-p}, MAPLXMY=1]=1{a>p}, 


MLELXY]=Y 


jn 


证 明 运用 贝 叶 斯 准则 的 术语 ， 事 件 了 = 1 是 症状 ， 先 验 概率 为 


po= 1 一 w 和 Pi = co. 


同时 ， 条 件 概率 是 
qo=P[Y= 1/X=0]=p 和 gi=P[Y= 1/X=1]=1-p. 
此 ,MAP[X|Y=1]=arg max p,q,. 


所 以 ， 


1l， 才 pq1 =&(l-p)> poqgo = (I-00)p 
0， 其 他 情况 . 
由 此 可 得 ，MAP[XIY= 1] = 1{a >p}. 也 就 是 说 ， 当 Y= 1 时， 如 果 卫 = 1 的 先 验 概率 
大 于 信道 出 错 的 概率 ， 就 可 以 猜测 = 1. 
并 且 


warixlr =11-| 


MLEI[X |Y =1]= arg max gq;. 
ie{0,1} 


在 这 种 情况 下 ， 由 于 p<0.5,， 总 有 MLE[XIY= 1] = 1. 这 是 因为 Y=1 在 X=1 时 比 在 
他 =0 时 更 容易 发 生 . 所 以 ,最 大 似 然 估 计 和 忽视 先 验 概率 ， 当 了 = 1 时 总 是 猜测 对 = 1， 
即便 先 验 概率 PCY= 1) = a 可 能 很 小 . 
类 似 地 ， 可 以 得 到 
MAPIX |Y =0]= arg max p;(1— gq,). 


所 以 ， 
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1 者 p(-9g)=cxp>Ppd-q)=(-c)d- 门 
0， 其 他 情况 

由 此 可 得 M4P[XIY=0]=1{a>1-p}. 所 以 ， 当 观察 到 了 =0 时， 如 果 了 = 1 的 先 验 概 


率 比 信道 正确 的 概率 要 大 ， 就 可 以 猜测 X= 1. 
并 且 MLE[XIY= 0]=0， 因 为 p<0.5. 和 


wrx y=-| 


5.2 霍 闪 曼 编 码 


编码 可 以 提高 数字 链 路 的 性 


图 5-7 ”大 卫 ' 霍 夫 曼 ( 1925 一 1999 ) 


假设 想 要 通过 数字 链 路 传送 包含 符号 4、B3、C、D 的 字符 串 . 那么 最 简单 的 方法 
是 将 这 些 符号 分 别 编码 为 00、01、10 和 11. 这 样 每 个 符号 需要 传送 2 比特 ， 如 果 信 
道 不 存在 错误 , 那么 当 接收 机 接 到 数据 0100110001, 就 能 将 信和 号 解码 并 得 出 发 送 的 字 
符 串 为 B4D4B. 
现在 , 假设 字符 串 中 符号 出 现 的 频率 为 (4, 55%)、(B, 30%)、(C, 10%) 和 (D, 5%). 因 
此 ,4 的 出 现 占 总 时 间 的 55%， 其 他 符号 以 此 类 推 . 在 此 情况 下 ， 一 种 好 的 编码 机 制 
应 该 使 用 比 DD 更 少 的 比特 来 对 4 进行 编码 . 
对 这 个 例子 而 言 ， 霍 夫 曼 编码 [Huffman，1952] 的 编码 方式 如 下 : 
A=0,B=10,C=110,D=111. 
采用 霍 夫 曼 编码 ， 每 个 符号 平均 所 需 的 比特 数 为 
1x55%+2x30%+3x10%+3x5% = 1.6. 
因此 ， 可 以 节省 20% 的 比特 ,系统 也 会 快 25%.( 计算 方法 的 功劳 ! ) 注意 , 在 信 
道 没有 错误 时 , 这 种 编码 使 得 接收 机 从 接收 到 的 比特 中 无 误 地 恢复 发 送 机 传输 的 字符 
串 ， 比如， 如 果 接 收 机 收 到 110100111， 符 号 就 是 CB4D. 不 存在 混淆 的 情况 . 
下 面 来 看 为 什么 解码 的 时 候 不 会 出 现 混淆 . 可 以 将 比特 串 绘制 成 一 棵 树 中 到 达 叶 
子 节点 的 路 径 ， 如 图 5-8 所 示 . 从 第 一 个 接收 到 的 比特 开始 ， 沿 树 向 下 走 直到 到 达 一 
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个 叶子 ， 然 后 解码 一 个 字符 . 然后 再 对 剩 下 的 比特 重复 上 述 步 又 ， 直 到 比特 串 解 码 完 
成 . 在 我 们 的 例子 中 ， 比 特 串 为 110100111. 从 树 顶 端 开 始 ， 沿 树枝 110 到 达 叶 子 C， 
再 从 头 开 始 沿 树枝 10 到 达 叶 子 8， 以 此 类 推 . 这 种 能 够 一 次 性 无 误解 码 的 编码 统称 
为 无 前 级 编码 . 


0.55 0:3 .0,1 .0:05 
0 TO TO TL] 


图 5-8 ” 霍 夫 曼 编 码 
无 前 级 编码 的 构建 过 程 很 简单 .如 图 5-8 所 示 ， 首 先 将 出 现 频率 最 小 的 2 个 符号 


C 和 DD 结合 为 新 节点 CD. 新 节点 的 2 个 分 支 为 0 和 1. 然后 将 组 合 CD 的 权 赋 为 这 2 
个 符号 的 频率 之 和 0.15. 然后 重复 同样 的 步骤 ,结合 节点 CD 和 B, 并 将 组 合 BCD 的 


权 赋 为 0.3+0.15 = 0.45. 最 后 ， 结 合 4 和 BCD. 如 此 构建 得 到 的 树 与 编码 相对 应 . 
下 面 来 关注 霍 夫 曼 编码 的 一 个 性 质 . 
定理 5.4 ” 霍 夫 曼 编 码 的 最 优 性 
在 所 有 无 前 级 编码 中 ， 霍 夫 曼 编码 使 得 每 个 字符 所 需 的 平均 比特 数 最 少 . 


证 明 见 第 6 章 . 和 

值得 一 提 的 是 ， 其 他 编码 可 能 达到 更 小 的 平均 比特 长 度 ， 但 它们 不 是 对 逐个 字符 进 
行 编码 ， 采 用 的 方式 更 为 复杂 . 其 中 一 种 编码 观察 到 在 字符 串 长 度 半 六 1 的 时 候 ， 
只 有 2” 种 可 能 的 字符 串 . 这 里 ， 


已 =-》> ,xlog,(x). 


在 这 个 表达 式 中 , x 是 符号 了 的 频率 ,并 对 所 有 符号 进行 求 和 . 这 里 的 瓦 是 字符 分 布 
的 箭 . 所 以 ， 可 以 通过 列举 所 有 的 字符 串 并 分 配 nH 个 比特 来 辨别 它们 ， 因 而 对 于 7 
个 字符 的 编码 只 需要 nH 个 比特 ， 即 每 个 字符 及 比特 . 
在 我 们 的 例子 中 ， 
H= -0.5$log>(0.55) —0.3log2(0.3) -0.1log2(0.1) ~0.05log2(0.05) = 1.54. 

尽管 在 本 例 中 最 优 编码 相 比 于 霍 夫 曼 编 码 的 优势 并 不 明显 ， 但 是 可 以 很 容易 地 找到 差别 很 
大 的 例子 . 比如， 假设 只 有 两 个 字符 4、B， 其 频率 分 别 是 p 和 1-p,pE(0, 1). 霍 夫 曼 编 
码 中 每 个 字符 需要 1 比特 , 而 基于 长 字符 串 的 编码 中 每 个 字符 需要 -plogxp) -(1-P)logz(1-D) 
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比特 . 当 忆 = 0.1 时 ， 上 式 为 0.47， 这 比 霍 夫 曼 编码 所 需 比 特 的 一 半 还 少 . 
我 们 会 在 13.6 节 中 讨论 基于 长 字符 串 的 编码 . 


: ew 外 
5.3 高 斯 信道 EE 
在 前 面 的 几 节 中 ， 我 们 考虑 了 一 个 简化 的 信道 模型 : 二 元 对 称 信道 . 本 节 考 虑 
的 信道 模型 则 更 能 体现 实际 系统 中 噪声 的 物理 特性 . 在 这 个 模型 中 ， 发 射 机 传送 比 

特 XE {0, 1}， 接 收 机 接收 到 了 ， 其 中 

Y=X+Z. 
在 这 个 等 式 中 ，Z = pAM0, 四 与 蕊 无 关 . 我 们 称 这 个 信道 模型 为 加 性 高 斯 白 噪声 信 
道 . 图 5-9 展示 了 当 站 =0 入 = 1 时 了 的 分 布 . 实际 上 ， 当 了 =x 时 ,了 =pAx, 四 ). 


图 5-9 ” 当 了 =0 时, 了 的 概率 密度 函数 是 及 ; 和 = 工时， 了 的 概率 密度 函数 是 万 


假设 P(X=1)=pi=a 且 P(XY=0)=po=1-a. 那么 当 接 收 机 收 到 了 ， 它 要 怎么 判 
别 X=0 还 是 X= 1? 

在 这 个 例子 中 ， 由 于 了 是 一 个 连续 随机 变量 ,对 于 所 有 y, PI[Y=ylX=0]=0. 
此 ， 需 要 在 应 用 贝 叶 斯 准则 时 进行 一 些 改变 .首先 假设 每 次 测量 了 的 时 候 都 观测 到 了 
Ey, yte)， 其 中 0<e 所 1. 在 这 种 情况 下 ， 观 测 到 的 症状 是 YE Qs, yte)， 并且 发 生 
的 概率 大 于 0. 事实 上 ， 


qo = PLY e(y,y+ée)|X =0]~ f(y)e. 
该 式 的 约 等 号 由 对 =0 时 密度 为 /0) 推 导 而 来 . 同样 ， 
=P[lY e(y,y+é)| X=1]~ f(y)e. 
因此 ， 
MAPLX |Y € (y,y+6)] =argmax pfi(»)e. 


由 于 这 个 结果 与 8 无关 ， 可 以 得 至 
MAP[X |Y = y]=arg max pf,(»). 


3 


同 理 ， 
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MLELX IY =»]=argmax /7) 
我 们 也 可 以 验证 
MAPLXIY =y]=1y > 7+0° log(2)}. (5.2) 
pi 
产生 错误 的 概率 为 : 
P(N0,0’)> 了 + azlog()m + P(N,o’)< 了 + a?log(C)P， 
pi pi 


并 且 ， 


MLELXIY =y]= 1{y=0.5}. 


在 这 个 系统 下 ， 最 大 似 然 估计 的 错误 概率 与 参数 为 p= p(o ):= P(N (0,0 )>0.5) 
的 二 元 对 称 信道 的 出 错 概 率 相同 . 


二 元 相 移 键 控 (BPSK) 


前 面 的 简单 模型 很 好 地 对 应 了 采用 了 BPSK ( Binary Phase Shift Keying， 二 元 相 
移 键 控 ) 传输 机 制 的 实际 系统 .在 这 种 系统 中 ,发射 机 每 次 发 送 一 个 持续 7 了 秒 的 正弦 
波形 ， 并 根据 发 送 的 比特 是 0 还 是 1 决定 其 相位 ; 而 不 是 通过 传送 持续 7 了 秒 的 电 平 以 
代表 0 和 1 比特 . 具体 而 言 ， 如 果 传 送 的 比特 为 0， 则 发 射 机 发 送信 号 
So0= {so0(t) = Asin(27f), 1E [0, 71}. 
这 里 , 7 是 周期 的 倍数 ， 且 满足 =k(k 为 整数 ) 为 传送 比特 1， 发射 机 发 送信 


ow} 
与 81 三 一 90. 


0 | ont oe so 


图 5-10 ”BPSK 下 发 射 机 发 送 的 信号 


为 什么 要 这 么 麻烦 呢 ?” 这 么 做 的 一 个 好 处 是 , 可 以 根据 实际 物理 系统 的 需要 选择 
合适 的 频段 . BPSK 下 的 信号 是 在 频率 了 附近 的 正弦 波形 ,设计 者 可 以 选择 适合 传输 
媒介 的 频率 . 比如 , 如 果 传 输 是 无 线 的 ,就 可 以 选择 适合 天 线 的 辐射 和 接收 的 频率 了 这 
里 , 发 送 的 电磁 波 波 长 , 也 就 是 光速 除 以 了 , 需要 和 天 线 的 物理 尺寸 在 同一 数量 级 . 比 
如 ，1GHz 与 1 英尺 的 波长 相对 应 . 该 频段 的 正弦 波 适 合 手 机 天 线 的 发 送 和 接收 . 

发 射 机 通过 传送 信号 s; 来 发 送 比 特 i(i = 0, 1). 接收 机 则 试图 检测 接收 到 的 信号 到 
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底 是 so 还 是 $1= so， 为 了 做 到 这 点 ， 它 将 接收 到 的 信号 乘 以 在 频率 了 处 的 正弦 波形 ， 
然后 计算 乘积 的 均值 . 如 果 接 收 机 收 到 信号 rz= {ro 0 大 友信 ， 需 要 计算 
1 sinCm di. 


这 里 可 以 验证 , 若 > = so。， 则 结果 为 4/2; 若 > = si， 则 结果 为 -4/2. 因此 ， 如 果 
均值 为 正 ， 则 接收 机 判定 收 到 的 信号 为 0， 否则 为 1. 

很 多 时 候 ， 当 发 射 机 发 送 % 时， 接收 机 接 到 的 并 不 是 w， 而 是 具有 一 定 衰减 且 带 
有 了 噪声 的 信和 号. 因此， 进行 上 述 计算 后 ， 接 收 机 得 到 B+2Z 或 -B+Z. B 是 取决 于 衰减 
的 常量 ， 而 Z 是 服从 .40, 办 的 随机 变量 ， 咏 代表 噪声 的 能 量 . 于 是 ， 信 和 号 检测 问题 
等 同 于 前 面 讨论 过 的 检测 高 斯 随机 变量 的 均值 . 


5.4 多 维 高 斯 信道 


使 用 BPSK 时 , 发 射 机 有 两 种 选择 :so 和 si. 所 以 ,发 射 机 在 T 秒 内 发 送 1 比特 . 为 
了 增加 传送 速率 ， 通 信 工 程 师 发 明了 一 种 更 有 效率 的 传输 机 制 : QAM ( Quadrature 
Amplitude Modulation， 正 交 幅 度 调 制 ) 采用 这 种 传输 方法 ,发射 机 可 以 在 每 7 秒 内 
发 送 大 比特 .这 一 机 制 可 根据 不 同 的 大 值 进行 调整 . 当 上 = 1 时 ， 这 种 方法 和 BPSK 
完全 一 致 ， 当 > 1 时，QAM 会 采用 2“ 个 不 同 的 信号 ， 每 一 个 都 形 如 

acos(2nft)+bsin(2nf). 

系数 对 (a, b) 确 定 了 信号 的 形式 并 且 对 应 一 个 给 定 的 个 比特 的 字符 串 . 这些 系 数组 成 一 
个 如 图 5-11 所 示 的 星座 图 .图 5-11 对 应 16 进 制 正 交 幅度 调制 ， 也 就 是 上 = 4 的 情况 . 


b 


图 5-11 16QAM 星座 图 


接收 机 收 到 信号 时 ， 用 2cos(2x 有 0 与 之 相 乘 并 计算 了 秒 内 的 平均 值 ， 如 果 没 有 豪 
减 和 噪声 ， 这 个 均值 等 于 系数 a， 接收 机 也 会 用 2sin(2nf) 与 信号 相 习 ,并 计算 7 秒 内 
的 均值 ， 以 得 到 系数 bp. 根据 系数 对 (a, 5)， 接 收 机 可 以 辨别 发 送 机 发 送 的 4 比特 . 
于 噪声 ( 衰减 可 以 纠正 ) 的 存在 ， 接 收 机 收 到 的 值 了 = (7i, 到 ) 通 常 不 会 与 星座 
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图 上 的 点 完全 对 应 ， 如 图 所 示 . 这 时 候 , 接收 机 会 在 星座 图 中 找到 距离 点 了 最 近 的 点 
并 读 出 相应 的 比特 信息 . 

由 于 发 射 机 的 传输 能 量 有 限 ，|a| 和 |b| 的 值 是 有 界 的 . 因此 ， 如 果 星 座 图 中 有 更 多 
数据 点 ( 也 就 是 值 更 大 的 时 候 )， 它 们 之 间 的 间隔 就 会 更 小 .这 种 情况 会 增加 噪声 
误导 接收 机 的 可 能 性 ， 所 以 应 当 根 据 噪声 的 能 级 选择 星座 图 的 尺寸 . 事实 上 ， 实 际 系 
统 正 是 这 么 做 的 . 比如， 一 个 有 限 调制 解 调 器 和 一 个 非 对 称 数字 用 户 线路 (ADSL ) 
调制 解 调 器 会 将 频带 分 为 小 的 信道 ,然后 通过 度量 每 个 信道 的 噪声 能 级 为 其 选择 合适 
的 星座 图 . 


多 维 情况 下 的 MLE 


下 面 对 调 制 、 解 调 ， 以 及 为 补偿 衰减 和 噪声 影响 所 进行 的 信号 放大 作出 总 结 . 发 
射 机 发 送 图 5-11 中 所 示 16 个 向 量 中 的 1 个 xx = (ae 加 我 们 将 发 射 机 传输 的 向 量 记 
为 ,将 接收 机 做 解 调 后 得 到 的 向 量 记 为 了 . 

首先 假设 


7 了 =X+2, 


这 里 Z = (Zi, Z)) 目 Z1、 恕 是 独立 同 分 布 的 服从 NO0, 办 的 随机 变量 ， 即 假设 已 、 丈 中 
的 误差 为 独立 的 高 斯 噪声 . 这 种 情况 下 , 可 以 按 下 述 方法 计算 给 定居 时 王 的 条 件 分 布 
密度 函数 户 xb]. 给 定 X=x， 有 页 =x+Z， 到 =2+2Z. 由 于 Zi1 和 妃 是 独立 的 ， 所 
以 页 和 有 歹 也 是 独立 的 而且， 页 = No 办， 歼 = No 四 因此， 
加 1 (1 —0) 1 0O2 一 六 )” 
fyx[ly|x] rt 3 pe gE 人 

前 面 提 到 过 ，MLE[XIY = y] 是 使 表达 式 最 大 的 xE {x1,，…, xi6} 的 值 ， 因 此 ,MLE 

得 到 的 值 xx 使 下 式 最 小 : 


Keep = Cp) + 2). 
由 此 可 以 看 到 ，MZE[ 习 到 给 出 的 点 就 是 星座 图 中 最 接近 王 值 的 点 . 


5.5 假设 检验 


尽管 MAP 和 MLE 有 广泛 的 应 用 , 但 是 在 设计 警报 系统 、 医 学 检查 、 错 误 检 测算 
法 和 其 他 一 些 应 用 中 却 难以 令 人 满意 . 下面 介绍 一 个 很 重要 的 规范 化 问题 一 一 假设 检 


验 问题 . 
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5.5.1 规范 化 问题 


假设 XE {0, 1}， 并 且 已 知 了 在 给 定 丈 下 的 分 布 ， 要 解决 下 面 的 问题 : 
最 大 化 PCD:=P[X=1|X=1] 
服从 PF4=P[X=1|X=0]<h. 
这 里 , PCD 代表 正确 检测 概率 , 也 就 是 当 碟 为 1 时 检测 结果 为 X= 1 的 概率 . PF4 
是 错误 预警 概 府 ， 也 就 是 当 了 实际 为 0 时 检测 结果 为 = 1 的 概率 .常数 8 是 系统 规 
定 的 错误 预警 概率 的 上 界 . 
我 们 可 以 这 样 直 观 地 理解 上 述 的 术语 : 想象 一 下 了 = 1 代表 房子 着 火 了 . 这 种 情 
况 下 , 为 X= 1 事先 假定 一 个 先 验 概率 并 不 合理 , 所 以 无 法 采用 基于 MAP 的 规范 化 问 
题 来 寻找 答案 . 同样 ，MLE 相当 于 假设 P(X = D = 1/2， 在 这 里 也 不 适用 . 在 假设 检 
验 的 规范 化 问题 下 ， 目 标 是 要 以 最 大 的 概率 检测 火灾 ,但 同时 保证 错误 预警 概率 在 预 
定 的 范围 内 ， 即 希望 火灾 检测 器 尽 可 能 敏锐 ， 但 不 至 于 导致 大 量 错误 预警 . 
由 上 引出 下 面 的 概念 . 


定义 5.5 ROC 


如 果 问 题 的 解 为 PCD = R(B), 函数 R(B) 就 叫 作 ROC ( Receiver Operating 
Characteristic， 受 试 者 工作 特征 ). 0 
图 5-12 展现 了 一 条 典型 的 ROC. 这 个 名 称 的 由 来 是 因为 这 个 函数 取决 于 给 定 = 
0 和 成 = 1 时 关于 丈 的 接收 信号 ( 即 了 ) 的 条 件 分 布 . 


R(B) = max{ PCDIPFA<P} 


0 [a 
0 1 


图 5-12 ”ROC 是 当 PFA4 <6 时 正确 检测 概率 的 最 大 值 R(B)， 
这 里 R(6) 是 错误 预警 概率 界限 8 的 函数 


5.5.2 解答 


假设 检验 问题 的 解答 在 下 面 的 定理 中 盖 明 . 
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定理 5.6 ” 奈 曼 一 皮尔 逊 [Neyman & Pearson，1933] 


假设 检验 问题 的 最 优 解 由 下 式 给 定 


Lo 人 (5.3) 


在 表达 式 中 ， 


frixly 上 
frxly 10] 


L(y)= 


为 似 然 比 , 即 当 钱 = 1 时 出 现 y 的 可 能 性 除 以 当 了 =0 时 出 现 y 的 可 能 性 . 而 
且 ，4>0 和 yE[0, 1] 的 取 值 使 得 是 满足 


P[X=1/X=0]=p. 


图 5-13” 耶 日 : 奈 曼 (1894 一 1981 ) 


可 以 看 到 ， 若 L(7) 较 大 ， 则 对 = 1. 这 个 结论 比较 直观 ， 因 为 L() 较 大 意味 着 症 
状 值 了 在 了 =1 时 比 在 和 = 0 时 更 可 能 发 生 . | 情况 下 , 我 们 更 倾向 于 判定 丈 = 1 ， 
也 就 是 猜测 壹 =1， 当 LZ(7) 较 小 时 ,情况 是 类 似 的 . 通过 调整 4 可 以 调整 检测 器 的 灵 
敏 度 ， 如 果 1 较 小 ， 则 检测 器 更 倾向 于 选择 对 = 1， 这 增加 了 正确 检测 的 概率 ， 但 同 
时 增 大 了 错误 预警 的 概率 . 选择 1 使 探测 器 恰好 足够 灵敏 ， 使 得 PF4 = 5. 在 某 些 问 
题 中 ， 也 许 需 要 避免 让 1 过 于 接近 临界 值 . 这 一 点 会 在 后 面 的 例子 中 进行 解释 . 

我 们 会 在 下 一 章 证 明定 理 5.6. 现在 先 来 看 几 个 例子 . 


5.5.3 示例 


1. 高 斯 信道 
前 面 定 义 了 标量 的 高 斯 信道 模型 : 
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Y=X+Z. 

这 里 ，Z= N(0, o ) 并 且 和 也 无 关 . 在 这 个 模型 中 ,XE {0, 1}. 接收 机 希望 从 收 到 
的 信号 了 中 判别 出 传输 信号 艺 

下 面 来 看 规范 化 问题 MLE 和 MAP. 在 MLE 中 ,我 们 希望 找到 使 得 了 最 有 可 能 
发 生 的 陈 值 . 也 就 是 ， 


MLE[XT7 = 中 =arg max fyxly |x]. 


当 7 了 <0.5 时 ,结果 是 MLE[X| 站 =0， 否则 MLE[XI7]= 1. 
MAP 会 在 给 定 了 的 情况 下 ， 找 到 对 在 {a, 5} 内 最 可 能 的 值 ， 也 就 是 ， 
MAP[XIY=y|=argmax PLX =x|Y=y]. 


为 了 计算 MAP ， 需 要 知道 X= 0 的 先 验 概率 po。. 经 过 计算 发 现 ， 当 
y 宇 0.5+0o log(po /p) 时 ,MAP[XIY=y]=1， 否则 M4P[XIY=y]=0. 

在 假设 检验 的 规范 化 问题 中 ,错误 预警 概率 PF4 = P[ 久 = 1|K=0] 不 能 大 于 p. 根 
据 定 理 5.6， 要 得 到 最 优 的 判定 ， 需 要 计算 似 然 比 L(7): 
op 
exp{—2} 
注意 ， 对 于 任意 给 定 的 4， 都 有 P(L(7) = 力 =0. 并 上 且 ，LO) 是 yy 的 严格 递增 函数 . 
此 , 式 (5.3 ) 可 以 简化 为 


27 一 1 
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L(y)= 


=exp{ }. 


> | 1 大 7 之 功 
”10， 其 他 情况 . 
选取 yj 使 得 PFA4 =B， 即 
P[X=1X=0]=PIY=yoX=0]=p. 
如 果 于 =0， 则 了 = NM0, 四 . 因此 ， 和 加 的 值 应 当 满 足 
POM(0, o)=y0) =p. 


即使 得 


P(N(0, 1)= 0 = 有 


比如 ,图 3-7 展示 了 当 8 = $% 时 ，)?oz= 1.65. 图 5-14 展示 了 解 的 性 质 . 
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fb] dy 


图 5-14” 某 一 高 斯 信道 假设 检验 问题 的 解 


现在 计算 高 斯 信道 的 ROC. 令 y(6) 使 得 P(N(0, 1)=y(B))=B. 于 是 yo=yB)o. 在 
这 种 情况 下 ， 正 确 检 测 的 概率 为 
PCD=PIX =1|X=1]= PY y,|X=1]=P(N(,0’)> »,) 
= P(N(0,0°) y, -1)= P(N(0,D) oy -07) 
=P(N(0,1) > yp)-0o ). 
图 5-15 中 显示 了 不 同 o 的 ROC (由 Matlab 得 到 )， 可 以 看 到 ， 系 统 的 性 能 随 着 
噪声 的 增强 而 减弱 . 


1 1 1 1 PH 
0 0.1 LR 0 04 Vs 


图 5-15 ”高 斯 信道 Y= XHtZ 的 ROC， 其 中 XE {0, 1}, 2Z= WN(0, ao 


2. 指数 分 布 随机 变量 的 均值 

在 第 二 个 例子 中 ,测试 指数 分 布 随机 变量 的 均值 .问题 的 背景 是 一 台 生 产 灯泡 的 
机 器 , 它 生产 的 灯泡 寿命 服从 指数 分 布 . 机 器 有 两 个 状态 0 和 1. 当 状 态 X=xE {0, 1} 
时 ,平均 寿命 为 Ms ( 假设 Wo < 和 )， 这 台 机 器 在 蕊 = 1 时 会 使 产品 受到 影响 ， 即 灯泡 
的 寿命 缩短 . 
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令 了 = (Yi, …, 了 7) 表示 n 个 灯泡 的 寿命 ， 我 们 希望 检测 到 三 = 1， 并 使 错误 预警 概 
率 PFA<p=5%. 
首先 计算 


_ frxbyly]_ Thexp{-ty} 
frxly10] TI exp{-hy,} 


= ep{- -DD 


L(y) 


为 如 < 罗 , LO) 是 >,y 的 严格 递减 函数 , 并 且 对 任何 4, 都 有 PC(D = 力 =0. 所 以 ， 
式 (5.3 ) 可 简化 为 


0, 其 他 情况 . 


这 里 a 的 值 使 得 


PIY'Y <alX=0]=B=5%. 


i=1 


当 卫 = 0 时 ， 嘱 是 均值 为 Mo 的 独立 同 分 布 指数 随机 变量 . 它们 和 的 分 布 很 复杂 
( 伽 马 分 布 )， 所 以 用 中 心 极限 定理 来 估计 . 


我 们 有 ” 
也 +…+ 了 一 14 了 总 
ee ~ N(0,40 ). 
因此 ， 
ea YF++Y -nA _a-nAs 
er Vn Vn 
所 以 ， 
PTy 7 0 a A 
和 Vn 
=P(N(0,1) 志 一 At ). 
Vn 
因此 ， 如 果 要 让 这 个 概率 等 于 5%， 由 式 (3.2 ), 一 定 要 选取 a 的 值 使 得 
i 
和 


O 广 


上 


吕 


var(Y) = 17 . 
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即 
a=(nt1.65 Vn ) th. 

在 这 个 例子 里 需要 注意 的 一 点 是 ， 凶 的 计算 是 基于 Yi+…+ 久 的 . 所以， 虽然 测 
量 了 n 个 灯泡 的 寿命 ,但 是 最 终 起 决定 作用 的 只 有 它们 的 和 ， 即 它们 的 均值 . 

3. 硬币 的 偏差 

在 第 三 个 例子 中 ， 观 察 的 对 象 是 二 个 硬币 的 抛掷 结果 . 假设 给 定 人 =xE {0, 1}， 
硬币 是 独立 同 分 布 的 BCp,). 也 就 是 说 ,对 给 定 的 =x， 抛 硬币 的 结果 7, …, 是 独 
立 同 分 布 的 ,等 于 1 的 概率 为 p.， 否 则 等 于 0. 假设 pi > po= 0.5， 这 个 问题 等 同 于 检 
测 硬币 是 均匀 的 还 是 有 偏差 的 . 

这 里 ， 随 机 变量 是 离散 的 . 我 们 有 

PLY = y= nl [Tp (一 六) 
=p (1 一 p,)”“， 其 中 S= 了 +…+ 了 . 


所 以 ， 
_ PIY =y,,i=1,…,n|X =1] 
PIY =y,,i=1,…,n|X=0] 


-2 ] [局 | -2 ] (et 
po 1 一 Pu 1 一 Po poll— pi) 
由 于 pi>po， 似 然 比 随 5S 增加 而 增加 .所 以 ,假设 检验 问题 的 解 为 
=1{S 宇 n,},， 
这 里 no 的 值 使 得 PLS 宇 m1X=0]xB .为 了 计算 no, 在 X=0 时 用 中 心 极限 定理 估计 5: 


S—np no —np 
PIS 三 n, | X=0]=P( 2 过 一 "| 和 =0) 
Vn Vn 


L(Y,…,Y,) 


~ P(N(0,p,(1-p) 2 
(N(0, poll— po)) a ) 


2no —n 


= P(N(0,0.25) 二 Te) = P(N(0,1) > ). 


如 果 B=5%， 那 么 由 式 (3.2 ) 可 得 


An 165. 
n 


因此 ， 
no= 0.5n+0.83 Vn . 
4. 离散 观测 
在 以 上 的 例子 中 ，L(D) 都 是 连续 的 .在 这 样 的 情况 下 ，L(7) =4 的 概率 总 是 0， 
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所 以 没有 必要 在 了 取 某 些 特 定 值 的 时 候 随机 地 选择 万 . 现在 来 看 一 个 需要 随机 选择 
的 例子 . 
仍然 考虑 判定 凶 为 0 还 是 1 的 问题 . 我 们 希望 以 最 大 化 正确 检测 的 概率 并 保证 错 
误 预 警 概率 不 大 于 p. 如 果 不 作 任何 观测 , 那么 最 优 的 做 法 是 以 概率 8 判定 =1. 这 
样 错误 预警 的 概率 得 到 了 保证 ， 同 时 正确 检测 的 概率 也 为 p. 这 结果 优 于 直接 判定 
总 为 0. 
下 面 考 虑 一 个 更 复杂 的 例子 . Ye {4,B,C}, 并 且 
P[IY= AIX=1]=0.2, PIY= BIX=1]=0.2, PI[Y= CIX=1]=0.6 


P[Y= AIX=0]=0.2, PIY= BIX=0]=0.5, P[Y= CIX¥=0]=0.3. 
那么 似 然 比 ZOo) = PI[IY=y|X= 1]/P[Y= ylX=0] 的 值 为 
L(A4)=1, L(B)=0.4, L(O)=2. 
现在 ,依照 工 的 值 把 观测 到 的 结果 按 升序 排列 .结果 如 图 5-16 所 示 . 


天 B A C 
PIYX=1] 0.2 0.2 0.6 
PIYX=0] 0.5 0.2 0.3 

7( 刀 0.4 1 2 


4=2.13PCD=0,PrHA=0 


41= 2 一 PCD = 0.6). PRA = 0.3y 
4= 1.4 一 PCD = 0.6, PFA = 0.2 


1 = 1 一 PCD = 0.6+0.2y, PFA = 0.3+0.2y 


图 5-16 3 个 可 能 的 观测 结果 


因此 ， 这 一 假设 检验 的 结果 可 以 通过 寻找 阔 值 4 与 随机 概率 来 满足 下 式 : 
PIX=1|7Y]=1{L07) > d+y{L(Y) = 分. 

同时 , 4 与 的 取 值 也 使 得 错误 预警 概率 为 7. 

图 5-16 显示 ,如 果 选 择 4=2.1, 对 于 所 有 了 的 取 值 ,L(7) <y. 因 此 总 是 判定 全 =0. 相 
应 地 , 正确 的 检测 概率 和 错误 预警 概率 也 都 为 0. 图 5-16 还 告诉 我 们 ， 如果 选择 4= 2 
和 参数 y， 那 么 在 L(7) = 2 的 时 候 我 们 会 以 概率 ”判定 万 = 1. 由 于 如 果 X=0， 则 了 = 
C 的 概率 为 0.3 并 且 L(7) = 2 (意味 着 我 们 以 概率 选取 壹 = 1 ), 该 方法 判定 X= 1 
的 概率 为 0.3y， 而 这 恰恰 是 定理 5.6 的 结论 . 

我 们 还 能 从 图 里 读 出 许多 其 他 结论 . 如 果 将 4 从 2.1 减 小 到 0.39, 那么 犯错 的 概率 会 
从 0 增加 到 1. 另外 ,我 们 总 能 通过 调整 4 的 值 以 及 选择 相应 的 y 来 满足 任意 [0，1] 
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内 的 错误 预警 概率 . 比如 , 可 以 选择 1=2 且 y= 0.05/0.3 以 保证 PF4 = 0.05. 类 似 地 ， 
选择 4=1 并 且 y=0.5 能 保证 PE4 = 0.4. 在 此 情况 下 ,如 果 观 测 值 7= C, 则 判定 蕊 = 1; 
当 了 Y=4 时 ,以 概率 0.5 判定 万 =1. 这么 一 来 , 当 了 =0 的 时 候 , PE = 0.3+0.2x0.5= 0.4. 同 
时 可 以 看 到 PCD = 0.6+0.2x0.5 = 0.7. 

图 5-17 给 出 了 PCD 与 PFA 的 关系 . 


0.8 R(B) 


pb 
> 


0 03, 03 1 


图 5-17 离散 例子 中 的 受 试 者 工作 特征 
5 6 小 、 -a 


口 MAP 和 MLE 
D BPSK 

口 霍 夫 曼 编码 
口 独立 高 斯 误差 
口 假设 检验 : 奈 曼 -皮尔 逊 定理 


重要 方程 与 公式 
贝 叶 斯 准则 Ti = piqi ,p,q; 定理 5.1 
MAPIXIY = y] arg max.P[X = x|Y = y] 定义 5.2 
MLE[XIY = y] arg max.P[Y = ylX = x] 定义 5.2 
似 然 比 LO) = frxlyl1]/ frxLyl0] 定理 5.6 
高 斯 信道 MAPLX|Y =H]=1y > 7+0° log(2)} 式 (352 
pi 
奈 曼 一 皮尔 逊 定理 P[X= 1 = 1{L7>44y1{L(D = 定理 5.6 
ROC ROC(B) = max.PCD 使 得 PRA4<p 定义 5.5 
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5.7 参考 资料 


检测 理论 是 一 个 很 经 典 的 理论 , 它 是 数字 通讯 的 核心 ( 可 以 参见 Proakis 的 Digital 
Communications，4th Edition )， 奈 曼 -皮尔 逊 定 理 在 “On the Problem of the most 
Efficient Tests of Statistical Hypotheses”, 1933 中 有 介绍 . 对 于 假设 检验 的 讨论 ， 可 
见 Lehmann 的 Testing Statistical Hypotheses , 3rd Edition.， 如 果 读 者 对 于 数字 通信 ( 特 
别 是 无 线 通 信 ) 的 细节 感 兴 趣 ， 请 参看 Tse 和 Viswanath 的 Fundamentals of Wireless 


Communication. 


5.8 练习 


1. 假设 当 X= 0 时 ,了 = M0, 1); 当 对 = 1 时 ,了 = /M0, 四 ,其 中 只 > 1. 计 算 MLEL[XI7. 

2. 令 对 和 了 为 独立 且 满 足 分 布 UT0, 1] 的 随机 变量 . 定义 和 = 本 了 7 和 丈 = 正 也 

(a) 证 明 天 和 丈 不 相关 . 

(b) 六 和 丈 是 否 独立 ” 证 明之 . 

3. 一 个 数据 链 路 采用 了 如 图 5-11 所 示 的 16QAM 星座 图 ， 并 有 xi = (1，-1). 设 
接收 机 接收 到 的 信号 为 了 = XHZ， 这 里 Z= pM0, oD. 接收 机 运用 最 大 后 验 机 制 . 用 
Matlab 仿真 这 一 系统 来 估计 o= 0.2 和 0.3 时 的 错误 比例 . 

4. 通过 Matlab 产生 独立 同 分 布 的 UT0, 1] 随 机 变量 %, 来 验证 中 心 极限 定理 , 即 生 
成 随机 变量 { 钱 ,，…, 了 如} ，N= 10 000. 计算 

0 十 十 省 wanDio0 一 
家 二 
10 

绘 出 {70,…, 7o9} 的 经 验 累 积分 布 函数 并 和 人 M0, 112) 的 累积 分 布 函数 作 比较 . 

5. 检验 一 个 相当 于 二 元 对 称 信道 、 错 误 概 率 sE[0, 0.5) 的 数字 链 路 . 

(a) 观测 链 路 的 输入 输出 ， 如 何 得 出 s 的 最 大 似 然 估 计 ? 

(b) 已 知 输入 是 独立 同 分 布 的 比特 , 等 于 1 的 概率 为 0.6, 等 于 0 的 概率 为 0.4. 观 
测 n 个 输出 后 ， 如 何 计算 出 s 的 最 大 似 然 估计 ? 

(c) 和 上 面 情况 相同 ， 不 过 已 知 = 在 [0, 0.5) 上 的 概率 密度 函数 为 4-8x， 对 于 给 定 
的 n 个 输出 ， 如 何 计算 出 & 的 最 大 后 验 概率 ? 

6. 和 上 一 题 情 况 相同 ， 观 测 二 元 对 称 信 道 的 输入 输出 .通过 假设 检验 的 方法 判定 
> 0.1 的 概率 , 并 保证 错误 预警 概率 不 超过 5%. 假定 非常 大 , 并 且 运 用 中 心 极限 定理 . 

7. 随机 变量 对 满 足 PCY= 1)=2/3, P(X=0)= 1/3. 当 X=1 时 , 随机 变量 了 服从 参 
数 为 1 的 指数 分 布 . 当 筷 = 0 时 ， 随 机 变量 了 在 [0, 2] 上 均匀 分 布 . (提示 : 注意 了 上 > 2 
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的 情况 . ) 

(a) 计算 MLE[XI7. 

(b) 计算 M4P[XI7. 

(c) 解决 下 述 假设 检验 问题 : 最 大 化 PTY= 1|X= 1] 且 满足 PLX=1|X=0]<5%. 

8. 对 下 面 的 通信 信道 进行 仿真 .有 一 个 独立 同 分 布 的 源 ,根据 先 验 分 布 x= [pu pz, 
Pa, P4] 生 成 符号 {1,2, 3, 4} .这 些 符号 根据 四 相 相 移 键 控 机 制 调制 ， 即 被 映射 到 星座 图 
(+1, +1) 上 . 通信 建立 在 基带 高 斯 信道 上 : 如 果 发 送 的 信号 是 Ccu z)， 则 接收 的 信号 是 


p1= XitZ1, y2 = XtL,, 


这 里 的 ZI 和 亏 是 独立 的 满足 M0, 四 分 布 的 随机 变量 . 找 出 最 大 后 验 估计 和 最 大 似 然 
估计 . 

运用 Simulink ( 推荐 ) 或 者 Matlab 模拟 x = [0.1, 0.2, 0.3, 0.4]，c = 0.1 和 = 0.5 
情况 下 的 信道 . 评 佑 正确 检测 的 概率 . 

9. 假设 等 概率 地 取 {1, 2, 3} 中 的 值 .对 于 给 定 的 X, 随 机 变量 了 满足 分 布 必 1). 

(a) 计算 MAP[XI7. 

(b) 计算 MLE[XI7. 

(0) 计算 EC-7D”). 

10. 随机 变量 了 满足 P(X= 0) = P(X = 1) = 0.5. 对 给 定 的 对， 随机 变量 ,是 满足 
分 布 UT[0, 1.1-0.1 习 的 独立 同 分 布 随机 变量 . 我 们 希望 从 观测 值 ,中 判别 出 对 .每 个 
观测 的 代价 是 8>0. 为 了 得 到 好 的 数值 解 ， 假 设 

P=0.018~0.5(1.1) "log(1.1). 

(a) 假设 观测 到 素 = (六 ,，… 也 )， 基 于 此 ， 如 何 最 大 化 人 = 对 的 概率 ? 

(b) 此 时 对 应 的 P( 了 对 ,= 及 为 多 少 ? 

(c) 选择 使 P( 色 ,= 如-B, 最 大 的 n， 其 中 计 , 选 自 基底 (Yi, …, 7)， 提示: 使 用 

二 (0) =a* log(a) . 

11. 随机 变量 服从 参数 为 1 的 指数 分 布 ， 对 于 给 定 的 X， 随 机 变量 了 为 参数 为 
了 的 指数 变量 . 

(a) 计算 MLE[XI7]. 

(b) 计算 M4PLXI7]. 

(c) 解决 下 述 假设 检验 问题 : 最 大 化 PLY= 1|X= a] 且 满足 P[X=1|X=1]<5%， 
其 中 a >1 为 给 定常 数 . 

12. 考虑 参数 为 0 的 指数 分 布 随机 变量 Y， 观 察 到 这 个 随机 变量 的 n 个 独立 同 分 
布 随机 样本 页 ，…, 也. 计算 0 = MLE[0|Yi，…, 也 ]. 这 个 估计 的 偏差 BE[ 6-90] 是 多 少 ? 


从 
C5 
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当 n 趋向 于 无 穷 时 ， 这 一 偏差 是 否 趋 于 0? 

13. 假设 Y= pU[a, 6]， 观 察 到 这 个 随机 变量 的 个 独立 同 分 布 随机 样本 万 ，…， 
,计算 a 和 5 的 最 大 似 然 估 计 4 和 b ， 4 和 5 的 偏差 是 多 少 ? 

14. 考虑 一 个 假设 检验 问题 . 设 和 和 立 在 {0, 1} 中 取 值 ， 邓 的 取 值 取决 于 随机 向 
量 了 的 观测 值 ， 假 设 对 于 给 定 人 = i, 了 的 概率 密度 为 fy)， 其 中 i = 0, 1， 而 且 定 义 
LO)=f /NO). 

定义 g() 为 满足 P[Y=1|X=0]<B 时 ,P[ 凶 = 1|X= 1] 的 最 大 值 ,其 中 pe[0, 1]. 那 
么 (如果 有 ， 选 择 正确 答案 ): 


D sg)>=1-p; 

D s(OD)=A; 

口 最 佳 决策 是 由 函数 h(y) = P[ 对 = HZ= 妇 描 述 的 ， 并 且 该 函数 对 于 /OKO) 是 非 减 
的 . 


15. 给 定 9E[0, 1], 生 = 0(1, 1)+V, 这 里 让 和 马 是 独立 的 ,在 [-2,2] 上 均匀 分 布 . 解 
决 假设 检验 问题 : 最 大 化 PTO= 1Il0= 1] 使 得 PTL6= 1|06=0]<5%. 

16. 给 定 6= 1， X= pExp(D 和 给 定 0=0,， 和 = pUf0, 2]. 

(a) 找 出 6= FT 成 让， 即 随机 变量 6 是 蕊 的 一 个 函数 , 使 得 在 满足 PTO= 1|0= 0] 
<8 时 PT6=1I0= 1] 最 大 . 

(b) 计算 a(p) = P[0= 1|0= 1] 的 结果 . 

(c) 描 出 受 试 者 工作 特征 曲线 a(8)， 其 中 pe [0, 1]. 

17. 观测 一 个 随机 序列 {有 ,n= 0,12, ….0=0 且 该 序列 是 独立 同 分 布 的 伯 努 利 
序列 ，P(% = 0) = P(X = 1)= 0.5 的 概率 为 P; 9= 1 且 该 序列 是 在 {0, 1} 上 的 稳定 马尔 
可 夫 链 ， 转 移 概 率 P(0, 1) = P(1, 0) = a 的 概率 为 1-P. 参数 a 为 (0, 1) 上 的 给 定 值 . 

(a) 计算 M4P[OR，…, 如]. 

(b) 讨论 0 的 收敛 性 . 

(c) 讨论 组 合 假设 检验 问题 ， 当 0=1 时 , a<0.5; 当 0=0 时 , a=0.5. 

18. 如 果 96= 0， 序 列 {%, n 宇 0} 是 定义 在 有 限 集 世上 的 马尔 可 夫 链 ， 转 移 矩 阵 为 
Po. 如 果 9= 1, 转移 矩阵 为 P1. 在 这 两 种 情况 下 都 有 加 =xo. 计算 MLE[OR，…, 如 ]. 
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主题 ， 霍 夫 曼 编码 的 最 优 性 ，LDPC 码 ， 奈 曼 - 皮 尔 逊 定理 的 证 明 ， 联 合 高 
斯 随机 变量 


背景 知识 : 第 5 章 


第 5 章 介 绍 了 检测 和 假设 检验 问题 ， 霍 夫 曼 编码 ， 以 及 独立 高 斯 错误 的 情况 . 在 
本 章 ， 我 们 会 证 明 霍 夫 曼 编码 的 最 优 性 ， 证 明 奈 曼 -皮尔 逊 定理 ， 并 解释 LDPC 码 和 
联合 合 局 斯 随机 变量 . 


6.1 堆 夫 曼 编 码 最 优 性 的 证 明 


第 5 章 给 出 了 下 面 的 定理 ， 本 节 会 给 出 证 明 . 
定理 6.1 霍 夫 曼 编码 的 最 优 性 
对 于 每 个 字符 ， 霍 夫 曼 编码 所 需 的 平均 比特 数 在 所 有 无 前 级 编码 中 最 小 . 


A B C D 
0.55 0.3 0.1 0.05 
0 10 110 111 


图 6-1 霍 夫 曼 编码 
在 霍 夫 曼 1952 年 发 表 的 文章 中 ， 他 通过 对 字符 数 采用 数学 归纳 法 论证 了 该 定 
理 . 首先 假设 霍 夫 曼 编码 在 字符 数 为 n 的 情况 下 所 采用 的 平均 比特 数 最 少 . 记 该 比特 
数 为 L(n)， 现 在 假设 存在 男 一 编码 树 7， 在 字符 数 为 nt+1 的 时 候 使 用 的 平均 比特 数 为 
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4(0x+1)， 比 堆 夫 曼 编码 更 短 . 令 忒 和 了 为 两 个 使 用 频率 最 少 的 字符 ， 记 它们 的 频率 为 
x 三 y. 可 以 在 了 中 选 这 样 的 字符 ， 使 其 路 径 长 度 最 大 并 且 了 在 了 中 的 路 径 最 长 . 也 可 
以 将 了 与 了 中 一 个 更 常 出 现 的 字符 进行 交换 ， 就 能 减少 平均 路 径 长 度 . 
接 下 来 ， 先 假定 也 可 以 选择 和 和 也 使 其 在 了 中 为 兄弟 节点 〈 下 面 会 证 明 ) 那 
么 通过 将 蕊 和 了 了 合并 成 一 个 父 节 点 2 (频率 为 >==x+y )， 就 建立 了 对 个 字符 的 编码 ， 
其 平均 路 径 长 度 为 4(n+1)-z. 由 于 霍 夫 曼 编码 对 字符 的 情况 为 最 优 ， 有 Z(D 到 
A(n+1)-z. 现 在， 对 于 n+l 个 字符 的 霍 夫 曼 编 码 ， 也 合并 和 和 了 这 样 一 来 ， 堆 夫 曼 
编码 在 ntl 个 字符 时 的 平均 路 径 长 度 为 Za+D = ZO)+zs40+D， 这 与 堆 夫 曼 编 码 在 
+1 个 字符 时 不 是 最 优 的 假设 相 矛 盾 . 
接 下 来 只 需 证 明和 和 了 可 以 成 为 兄弟 节点 即 可 .首先 ,由 于 了 有 最 长 的 路 径 长 度 ， 
它 不 可 能 是 唯一 的 子 节点 . 否则 ,我 们 会 用 了 代替 它 的 父 节 点 从 而 减 小 其 路 径 长 度 . 假 
设 了 有 一 个 不 是 蕊 的 兄弟 节点 矿 交换 天 和 天 不 会 增加 平均 路 径 长 度 ， 因 为 到 的 频 
率 不 会 比美 小 .这样 即 完成 了 论证 . 和 


S 


6.2 低 密度 奇偶 校 验 码 (LDPC 码 ) 


LDPC (Low Density Parity Check， 低 密度 奇偶 校 验 ) 码 是 实际 应 用 中 最 有 效 的 纺 
码 之 一 . 加 拉 格 在 1960 年 的 论文 中 发 表 了 这 一 编码 ". 这 些 编码 在 今天 的 应 用 十 分 广泛 ， 
比如 卫星 视频 传送 .它们 对 于 二 元 对 称 信 道 和 其 他 许多 信道 几乎 能 达到 最 优 的 性 能 . 


! -Ne 


图 6-2 罗伯特 G 加 拉 格 (1931 一 ) 


LDPC 码 如 下 所 示 . 设 xE {0, 1}" 是 一 个 即将 传送 的 n 比特 字符 串 ， 我 们 将 这 一 
字符 串 用 一 个 m 比特 的 了 进行 扩 增 ， 这 里 
y=Hx (6.1) 
在 式 (6.1) 里 , 及 是 一 个 mxn 的 {0, 1 矩阵 ，x 和 了 均 为 列 向 量 ， 并 且 加 法 操作 
是 模 2 加 法 . 比如 ， 如 果 
且 x=[01001010]， 那么 y= [1110]. 这 个 由 x 计算 奇偶 校 验 位 y 的 过 程 可 以 通过 
泰 纳 图 ( Tanner Graph ) 表示 ， 如 图 6-3 所 示 . 


GD R.G. Gallager,“ 低 密度 奇偶 校 验 码 ”，MIT 出 版 社 ，1963. 
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101 1 1 00 0 
01 01 1 0 10 
FH= 
1] 1000 1 .01 
00 1 01 1 1 1 
i 
0 0 


如 果 H(i, 让 =1, 则 存在 一 条 边 
ps 


0 Te 
0 40 这 人 
0 1 ee 
0 0 

0 0 
Vf . 

p 
0 0 

y=Hx 


6-3 ”LDPC 码 的 泰 纳 图 表示 . 该 图 指出 了 五 阵 的 非 零 元 素 ,， 使 得 y = Hx. 接收 
机 收 到 这 和 不 是 x 和 y， 点 志 叫 作 消 息 节点 ， 点 yi 叫 作 检 验 节点 


因此 ， 传 送 的 是 x 和 了 而 不 仅仅 是 比特 串 x. y 中 的 比特 是 奇偶 校 验 位 . 由 于 传 
输 过 程 中 可 能 会 有 错误 , 接收 机 接收 到 多 和 5 而 不 是 x 和 yy. 然后 , 接收 机 计算 HX 并 
将 结果 与 请 相 比较 . 这 一 校 验 方式 是 ， 如 果 = HX ， 那 么 很 有 可 能 这 = x, $=y. 它 
的 依据 是 ， 很 难 在 发 生 传 输 错误 之 后 还 能 满足 y= HX . 因此 ， 如 果 选 择 恰当 的 豆 矩 
阵 ， 那 么 这 一 机 制 应 当 能 很 好 地 检查 出 错误 . 

除了 检测 错误 之 外 ，LDPC 码 还 可 用 于 纠 错 . 如 果 3》z HK ,那么 我 们 希望 通过 改 
变 最 少数 目的 比特 , 使 得 y= HX 重新 得 到 满足 . 这 里 的 依据 是 ,如 果 比 特 发 生 错误 的 
概率 很 小 并 且 均 为 独立 同 分 布 , 那么 按照 上 述 方法 找 出 的 比特 错误 就 是 最 有 可 能 发 生 
的 传送 错误 . 不 过 ， 找 到 正确 元 素 组 合 的 计算 量 随 着 元 素 个 数 指数 增加 .所 以 在 实际 
中 ， 人 们 用 迭代 算法 来 逼近 最 终 解 . 

下 面 介绍 一 个 经 常用 到 的 解码 算法 ， 叫 作 置 信 传 播 算法 (BP ). 假设 每 一 个 接收 
到 比特 的 错误 率 为 。 < 1, 正确 率 为 =1-e, 且 比 特 之 间 相 互 独立 . 同时 假设 发 射 机 
传输 的 比特 x 以 等 概率 取 0 或 1. 由 对 称 性 可 知 ， 这 意味 着 校 验 位 y; 也 以 相同 概率 取 
0 或 1. 在 该 算法 中 , 消息 节点 元 和 检验 节点 yj 沿 着 图 6-3 的 链 路 传递 它们 对 蕊 等 于 1 
的 概率 估 值 . 

在 算法 的 奇数 步 中 ,每 个 节点 七 向 每 一 个 与 之 相连 接 的 节点 六 发 送 一 个 Po = 了) 的 
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估计 节点 六 结合 收 到 的 估计 ， 向 每 个 交 节 点 返回 一 个 PQ = 1) 的 新 的 估 值 .yy 节点 进 
行 的 运算 如 下 : 考虑 图 6-4 所 示 的 情况 , 其 中 节点 得 到 估计 值 a= P(x = 1), b= P(x 
1),c=P(x3=1). 假设 =1, 于 是 节点 广 采 用 贝 叶 斯 准则 计算 Ppy=1|%]=1-e=5. 从 
图 中 可 以 看 到 xitxztxs = 力 , 因 此 节点 广 计 算 在 fo za 四 } 中 有 奇数 个 比特 等 于 1 的 概率 ， 
并 用 其 作为 xi = 1 的 概率 估计 . 


图 6-4 节点 从 x 节点 处 获得 估计 值 ， 再 计算 新 的 估计 值 


下 面 来 看 计算 的 具体 步骤 . 假设 xi，…, x 是 独立 的 {0, 1} 随 机 变量 ， 并 记 pj = PG = 
1). 注意 到 ， 如 果 在 {x1,，…, xj 中 等 于 1 的 变量 数 为 偶数 ， 
1-(1—2x)x.……x( —2x,) 

等 于 0; 否则 等 于 2， 对 其 取 期 望 值 可 以 得 到 

2P( 奇 数 )=1-[[.,(-2p)， 
所 以 ， 

a a 1 1 n 
P( 奇 数 ) = a 2 (6.2 ) 


因此 ， 在 图 6-4 中 ， 
P(x=1)=P Cox 中 有 奇数 个 1) 


=1_ -10-2 200 -28). 


(6.3) 


2 
pi D, Wg 
O O O 


P( 者 数 广 卫 -二 II-G-2p) 


图 6-5 每 个 节点 j 等 于 1 的 概率 为 p;, ， 甚 他 情况 下 等 于 0， 各 个 节点 相 
互 独立 .图 中 的 表达 式 给 出 了 存在 奇数 个 节点 为 1 的 概率 


图 6-3 中 的 y 节 点 就 运用 了 上 述 方法 来 计算 新 的 估计 值 ， 并 将 其 发 回 x 节点. 
在 算法 的 偶数 步 中 , 每 个 节点 会 从 译 处 以 及 y 节点 处 得 到 它们 在 前 一 步 中 的 估 
值 .这 里 ， 节 点 总 假设 它 得 到 的 不 同 估计 值 来 源 于 独立 观察 ， 也 就 是 说 ， 节 点 六 从 独 
立 的 专家 处 ， 即 和 它 在 图 中 相连 的 y， 得 到 关于 PQ = 1) 的 意见 ， 然后， 节点 % 会 
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融合 这 些 专家 的 意见 并 重新 进行 估计 . 
应 该 如 何 结合 独立 的 专家 观点 呢 ? 假设 N 个 专家 的 观察 值 为 万 ，… 


估计 pi;= P[X= 1|]. 假定 先 验 概率 是 PY= D = P(XY= 0) 
计 P[X= llpi, … PDMN]: 


Yw， 并 给 出 
1/2, 采用 下 面 的 方法 来 估 


PX 1 


P(Y 1， 2 
三 2 世人 =UPX=D (6.4) 
a De |S 


PI[Y|X=1]x…xP[Y, |X=1] 
>, [|X =x]x.…xP[Y, | = 
现在 计算 P[Y,IX=x]， 


A A tA A 
" P(X=7) 1/2 


因此 ， 


PLY,|X =0]=20- p,)P(Y,) EL PLY, |X =1]=2p,P(Y,). 
将 这 些 表达 式 带 入 式 (6.4 ) 可 得 


PIX =1|¥,…,¥,]= Pi EN l (6.5) 
PiP»*** PN +(1—p)…(l— pn) 
6-6 展示 了 这 一 过 程 . 
2 abc 
~ abc+(1-a)(1-b)(1-c) 
6-6 ”当先 验 概率 是 1/2 时 ， 结 合 独立 专家 对 P(X = 1) 的 观点 
将 这 一 结果 运用 到 图 6-7 所 示 的 情况 .在 图 中 ， 市 点 x ne =0 得 到 对 P(xi = 


察 元 
1) 的 估计 e. 它 同 时 从 节点 5 yy 处 得 到 估计 值 a, 5,c， 并 假设 这 些 估 计 相 互 独立 . 
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图 6-7 ”节点 xi 从 节点 处 得 到 Pa; = 1) 的 估计 ， 


计算 新 的 估计 值 
为 了 计算 新 的 估计 值 ， 节 点 x 结合 从 馈 ,y2,y3 人 处 得 到 的 估计 值 


ébc 


ed 


= (6.6) 
ébc+Ebc 


其 中 b= 1-5, 5= 1-c. 在 下 一 步 中 ， 节 点 xi 把 这 一 估计 值 发 给 节点 yy， 它 也 会 计算 
出 节点 和 ys 的 估计 值 . 

总 结 起 来 , 该 算法 的 步骤 如 下 . 在 奇数 步 时 ,节点 x 发送 Xi, 站 给 每 个 节点 yi. 在 
每 个 偶数 步 ， 节 点 yy 发 送 Yli, 有) 给 每 个 节点 : 


YG,7)=$-$(1 22 25) T0206,s)) , (6.7) 
其 中 4, 站 ={s# 儿 HGi,s)= 且 
二 二 (6.8 ) 
这 里 
OD EE ee 
并 且 


D(i,))= Px, =0|E]] T0600 -0,7), 
Plx;=1|X,]=é+(1—2e)x,. 


同时 ， 节 点 通过 下 面 的 方法 结合 专家 观点 并 更 新 必 等 于 1 的 概率 : 


~、 NO 
大 ( 门 = 一 一 一 一， (6.9) 
-WPD+DOD 
其 中 ， 
NO)= PLz =1|% TT YO), 
并 且 


DOD)=PLo =013,T T0070,7). 


在 经 过 足够 多 次 的 迭代 后 ， 可 以 得 到 检验 决策 xj= 1{X0) 二 0.5}. 
图 6-8 展示 了 随时 间 演 变 的 坟 等 于 1 的 估计 概率 . 我 们 的 代码 直接 采用 了 本 节 的 
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公式 . 置信 传播 算法 还 有 更 复杂 的 实现 方式 ， 使 用 log 函数 的 和 而 非 概率 的 乘积 . 


图 6-8 ”置信 传播 算法 应 用 于 图 6-3 展示 的 系统 . 横 轴 是 算法 的 步 数 ， 坚 轴 是 在 该 步 
得 到 的 x(D) 最 佳 猜测 .为 清楚 起 见 ， 我 们 将 预测 的 最 小 间隔 设 为 0.1. 最终 
的 检测 是 [0, 1, 0, 0, 1, 0, 1, 0]. 可 以 直观 地 看 到 这 是 最 佳 猜测 〈 男 见 彩 插 ) 
大 量 的 仿真 和 深层 的 理论 表明 ， 这 个 算法 在 图 没有 小 环 时 表现 很 好 . 在 这 种 情况 
下 ， 算 法 中 的 估计 值 几乎 可 以 被 认为 是 从 独立 的 观测 中 得 到 的 . 


6.3 联合 高 斯 分 布 随机 变量 


在 很 多 系统 中 , 向 量 了 中 每 个 分 量 上 的 错误 并 不 是 独立 的 . 一 个 适用 于 这 种 情况 
的 模型 如 下 : 


Y=X+AZ 
其 中 2Z= (Zi, 2) 是 一 对 符合 N(0, 1) 的 独立 随机 变量 , 而 4 是 一 个 2x2 的 矩阵 . 这 
里 的 核心 思想 是 ， 噪 声 向 量 42 的 分 量 总 体 上 并 不 独立 . 比如， 如果 4 的 两 行 是 完 
一 致 的 ， 则 42 的 两 行 也 会 完全 一 样 . 所 以 ， 这 个 模型 允许 我 们 考虑 两 个 分 量 错误 之 
间 的 相关 性 . 这 一 模型 也 指出 ， 分 量 错 误 之 间 的 相关 性 源 于 它们 都 是 共同 基本 噪声 源 
的 不 同 线性 组 合 . 
在 这 个 模型 下 应 当 如 何 计算 MLE[XIY]? 


fry l= PA (ya)} (6.10) 


其 中 4 是 矩阵 4 的 转 置 ,也 就 是 说 ,对 于 i,jE {1,2} 有 4'(i, 站 = 40, 刘 (下 一 节 详 细 说 明 ). 
此 ， 最 大 似 然 估计 是 使 得 下 式 最 小 的 xx 简单 起 见 ， 假设 4 是 可 逆 的 ): 
Q-x)A44) -x) =14 yA x. 
也 就 是 说 ， 我 们 希望 向 量 x 使 得 人 xx 最 接近 4. 
现在 看 如 何 理解 这 个 结果 . 注意 
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W :=A'Y=AX+Z= :V+Z. 
因此 ， 对 于 给 定 的 革 值 ，47' 了 的 分 量 是 独立 同 分 布 的 ， 满足 M0, 1)， 这 么 一 来 ,计算 
MLE[VIW = w] 就 很 简单 : 它 是 在 开 的 可 能 值 集合 {4 xi, …, 4 xie} 中 最 接近 w 的 值 的 
向 量 . 因 此， 可 以 通过 将 =47XX 的 最 大 似 然 估 计 乘 以 4 来 获得 义 的 最 大 似 然 估计 : 
MLE[XIY=y] = AxXMLE[VIW = 人. 


6.4 联合 高 斯 分 布 随机 变量 的 密度 函数 


在 这 一 节 里 ， 我 们 会 解释 式 ( 6.10 ) 和 该 结果 的 一 般 形式 . 
首先 陈述 其 主要 定义 和 将 要 证 明 的 结论 . 
联合 高 斯 分 布 
定义 6.2 ”联合 高 斯 分 布 Wwr >y) 随 机 变量 
设 向 量 尼 服从 独立 NM(0, 1) 分 布 的 随机 变量 ， 如 果 随 机 变量 了 = (7,…, 也) 满足 


Y= AX+tuy, Ty=A4, 


则 称 其 均值 为 uy、 协 方差 为 Zy 的 联合 高 斯 分 布 变量 , 记 作 了 = pMUp Zn 5 


图 6-9 广 的 等 高 线 


下 面 是 主要 结论 . 
定理 6.3”N(wy, 随机 变量 的 密度 函数 


令 了 = pN(uy, >y)， 那 么 


f(y)= exp{ 7 Ly) Ty (y—4y)}. (6.11) 


1 
V3, 1(2z); 
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如 图 6-9 所 示 ， 该 联合 概率 密度 函数 的 等 高 线 为 桶 圆 . 附录 B.6 对 其 有 进一步 前 述 . 

这 个 联合 分 布 是 由 均值 和 协 方差 矩阵 所 决定 的 . 如 果 到 = (VW) 是 联合 高 斯 分 
布 ， 那么 该 分 布 由 均值 、 2 、 2z 和 cov( 杞 内 所 决定 . 我 们 知道 ,如果 斑 和 丈 相 互 独 
立 ， 则 其 互 不 相关 ， 即 cov( 有 到 号 = 0. 由 于 联合 分 布 由 均值 和 协 方差 决定 ， 可 以 得 出 
结论 : 如 果 它 们 不 相关 ， 则 它们 也 相互 独立 . 我们 将 这 一 结论 记 为 定理 . 

定理 6.4 ”联合 高 斯 随机 变量 不 相关 ， 当 且 仅 当 它们 是 独立 的 


令 玉 和 了 球 为 联合 高 斯 随机 变量 ， 那 么 是 当 且 仅 当 它们 不 相关 时 是 相互 


定理 的 证 明 会 用 到 下 面 的 结论 
定理 6.5 ”联合 高 斯 分 布 的 线性 组 合 仍 为 联合 高 斯 分 布 


令 玉 和 了 于 为 联合 高 斯 分 布 变量 ， 则 4V+a 和 BWWV+b 仍 为 联合 高 斯 分 布 . 


证 明 由 定义 可 知 ， 如 果 天 和 球 是 服从 N0, 1) 的 独立 同 分 布 随机 变量 的 线性 函 
数 , 则 天 和 了 灭 是 联合 高 斯 分 布 . 那么 , 4V+a 和 BW+b 是 同一 组 独立 同 分 布 的 X0, 1) 
随机 变量 的 线性 函数 ， 因 此 它们 服从 联合 高 斯 分 布 . 更 明确 地 说 ， 存 在 服从 M0, 1) 
的 独立 同 分 布 随机 变量 X 使 得 


所 以 ， 
a | 的 

= 十 X. 2 
IBW+b| |b+Bd| |BD 
举 一 个 例子 , 令 鳅 和 了 为 独立 的 NO0, 1) 随 机 变量 . 那么 ,XtY 了 和 让 了 是 独立 的 . 实 
际 上 ， 由 定理 6.5 可 得 ， 这 些 随机 变量 是 联合 高 斯 分 布 且 不 相关 的 . 这 是 因为 : 

E((X+Y)(X-Y)-E(X+IE(X-Y)=E(X-Y’)=0. 

所 以 ， 由 定理 6.4 可 知 它 们 是 独立 的 . 


本 小 节 的 剩余 部 分 对 式 (6.11 ) 进行 推导 . 为 方便 起 见 ， 首 先 回顾 一 下 附录 A.13 
介绍 的 如 何 由 关 的 概率 密度 计算 4X+b 的 概率 密度 函数 : 


FD) = 其 中 4x+b=y. (6.12 ) 


现在 把 式 (6.12 ) 应 用 到 由 个 NO0, 1) 独 立 随 机 变量 所 组 成 的 向 量 和 上. 在 这 种 
情况 下 得 到 
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A RA ee 


2 
xX 
-ont Ei 


= 


于 是 ， 由 式 (6.12 ) 得 型 


= 于 | zx 
fy(y) 14| (27)"” exp{ 克 和 


其 中 Axtuy=y. 因此 ， 
x=A (yy), 
并 且 


x|3 4 (yo) N=) (44") GD 一 向 ). 
上 面 的 公式 用 到 了 |ld=z% 和 (My)'= 2 
现在 回顾 协 方差 矩阵 的 定义 ?: 
Zy= E(Y-E(P)NY-E(D)) 
由 于 了 = AX+tuy, Yx= 了 (7 为 单位 阵 )， 则 


ZZy= A>xA'=AA.. 
并 且 ， 
[d= APF 
综 上 可 得 


ee 1 1 rm 1 
fy(y) J ln xp Hr) Ty (Hy)}. 


这 正 是 式 (6.11 ). 


6.5 奈 曼 一 皮尔 了 未 定理 5.6 的 证 明 


证 明 思 路 是 考虑 任意 一 个 满足 P[ 针 = 1|X=0]<p 的 佑 计 闷 的 决策 规则 ， 然 后 证 明 
P[X=1X=1]<P[IXIX= 1]. (6.13) 
其 中 ， 久 为 定理 5.6 的 估计 .为 了 证 明 该 式 ， 我 们 注意 到 
(XY-Y)LD -N=0. 
事实 上 ， 当 ZL(D-4>0 时 ， 有 了 针 =1 三 鲁 ， 所 以 上 式 的 确 是 非 负 的 . 当 L(D-4<0 时 ， 
有 对 = 0 对 ， 因 而 上 式 还 是 非 负 的 . 


@ 参见 附录 A2. 
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对 该 式 两 边 取 给 定 X= 0 的 条 件 期 望 ， 
E[XLODIX=0] -EL[ ZY LDX=0]=AME[ FIR=0]-E[ZIX=0]). (6.14) 
根据 定理 ， 得 到 
E[XIX=0]=PIXY=1/K=0]=pB=P[X=1/X=0]=ElXIX=0]. 
因此 ， 由 式 (6.14 ) 得 出 


E[XYLODIX=0]=E[XLDX=0]. (6.15) 
对 于 任意 函数 e(D 有 
EI LO X=0]= [eV LO fry |)dy 
=|sO) J fly 10]dy 
= [gO) fxly |1ldy 
= Els(7)|X=1]. 
注意 ， 即 使 将 函数 e( 站 换 成 g(Y, 习 (Z 是 独立 于 对 和 了 的 随机 变量 )， 这 一 结果 仍然 
成 立 . 现在 取 g( 刀 = 苞 ， 我 们 得 到 
E[XL(ODIX=0]=E[XIX=1]=P[X=1X=1]. 
类 似 地 ， 


E[XL(DIX=0]=PIX=1X=1]. 
将 上 述 两 式 和 式 ( 6.15 ) 相 结 合 ， 即 可 得 出 式 ( 6.13 ). 


6.6 小 结 
口 LDPC 码 


口 联合 高 斯 分 布 随机 变量 ， 当 且 仅 当 不 相关 时 独立 
口 奈 曼 -皮尔 逊 定理 的 证 明 . 


重要 方程 与 公式 

LDPC y= Hx 式 (6.1) 
P( 奇 数 ) PC2 ZN =1D)=05 0%5[Ta 2p,) 式 (6.2) 
专家 观点 的 融合 PIX=11%,…,7]=T],p, (1],p,+T1,5,) 式 (6.5) 
联合 高 斯 分 布 NY) 全 大 = … 式 (6.10 ) 
若 X 和 了 和 是 联合 高 斯 分 布 ， 则 XL 了 二 和 了 独立 定理 6.4 


6.7 参考 资料 


Richardson 和 Urbanke 在 Modern Coding Theory 一 书 中 全 面 地 介绍 了 LDPC 人 码 以 
及 迭代 式 解码 技术 . 


6.8 练习 


1. 构建 两 个 分 别 为 高 斯 分 布 但 不 是 联合 高 斯 分 布 的 随机 变量 . 

提示 : 令 X= pMO0, 1), 2Z 为 独立 的 随机 变量 上 且 PZ=1TD=PC=-1)=12. 定义 了 = 
XZ. 证 明和 和 了 满足 题目 要 求 . 

2. 假设 X=p(Y+Z) V2 ， 其 中 了 和 Z 独 立 同 分 布 . 证 明 X= NM0, 四， 只 =0. 


提示 : 首先 证 明 ECY) = 0， 其 次 递归 证 明 钱 = p(Vit…+V)/ Ym ,m= 2”,， 且 玉 
是 分 布 如 对 的 独立 同 分 布 随机 变量 . 运用 中 心 极限 定理 得 出 结论 . 


3. 假设 Z= NM0, 习 ， 且 
0.2 0.1 
>= . 
bs | 


假设 字符 的 先 验 概率 相同 且 接 收 机 采用 最 大 后 验 机 制 进行 解码 .用 Matlab 模拟 该 
系统 来 估计 出 错 率 . 


夏 
C.6 
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追踪 定位 一 A 


应 用 : 估计 ， 追 踪 定 位 
主题 : LLSE，MMSE， 卡 尔 受 滤波 器 


背景 知识 : 附录 A 


雷达 可 以 发 射电 磁 波 并 且 接 收 物体 反射 回来 的 电磁 波 , 因此 被 广泛 应 用 于 物体 定 
位 . GPS 接收 器 可 以 通过 接收 卫星 发 射 的 信号 , 来 判断 自己 的 位 置 . 电脑 可 以 通过 接 
收 温度 和 压力 传 感 圳 的 数据 来 判断 化 学 反应 器 内 的 状态 . 同 理 , 汽车 中 的 控制 电脑 会 
接收 不 同 传感器 的 指标 来 判断 汽车 的 状态 . 本 章 主要 讨论 在 无 法 观测 到 全 部 信息 的 情 
况 下 ， 如 何 通 过 有 限 的 观测 量 来 估计 一 个 随机 变量 或 随机 向 量 . 


图 7-1 用 雷达 信号 估计 物体 的 位 置 


图 7-3 用 传感器 信号 估计 汽车 的 状态 
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7.1 估计 问题 


基本 的 估计 问题 可 以 用 如 下 方法 描述 . 设 有 两 个 连续 的 随机 变量 (X, 刃 . 我 们 希望 
根据 了 的 观测 值 来 为 卫 估 值 . 

这 个 问题 有 以 下 几 个 规范 化 的 形式 . 
口 已 知 分 布 : 事先 知道 (X, 刃 的 联合 分 布 . 
口 离线 : 事先 观测 一 组 (x%, 尺 的 样本 值 . 
口 在 线 : 持续 地 观测 (X, 的 样本 值 . 

我 们 要 寻找 一 个 推理 函数 g(-)， 使 得 期 望 误 差 C(g) 最 小 ， 其 中 

C(e)=E(c(X,g(7))). 

在 上 述 表达 式 中 ，c(X, 2 表示 实际 值 为 的 时 候 ， 猜测 对 值 的 代价 .一 个 常用 

的 c(X， 际 ) 函 数 为 : 


c(X,)=T-XP. 


我 们 还 会 研究 了 在 高 维度 里 的 情况 ， 即 Ye R” ,4 > 1. 在 这 种 情况 下 ， 可 以 采 
用 c(X, 邓 ) 直 半 - 耻 上 .此 时 ,相应 的 最 佳 估 值 被 称 为 已 知 了 条 件 下 XX 的 LSE (Least 
Square Estimate， 最 小 二 乘 估计 )， 如 果 函 数 g(-) 是 任意 的 ， 则 称 其 为 已 知 了 条 件 下 六 
的 MMSE ( Minimum Mean Square Estimate， 最 小 均 方 估 计 ) 如果 函数 g() 是 线性 的 ， 
即 具 有 atb7 的 形式 , 则 称 其 为 已 知 了 条 件 下 和 的 LLSE(Linear Least Square Estimate， 
线性 最 小 平方 估计 ) 还 可 以 把 g() 约 束 成 一 个 给 定 阶 数 的 多 项 式 函 数 . 例如 ,可 以 定 
义 已 知 了 条 件 下 的 QLSE ( Quadratic Least Square Estimate, 四 次 最 小 方差 估计 ). 图 
7-4 绘 出 了 这 些 函 数 . 


LLSE 


phe 


MMSE 


J Qse 


pp 


区 小 


图 7-4 已 知 了 条 件 下 XX 的 最 小 平方 估计 : LLSE 是 线性 的 ， 
QLSE 是 四 次 方 的 ，MMSE 则 可 以 是 任意 的 函数 


在 离线 推理 的 问题 中 ， 一 个 常用 的 方法 是 选择 一 组 参数 化 的 函数 {8,,,we RR} ， 
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天 
从 


全 一 A (D3 


全 


使 如 下 的 经 验 误差 最 小 ; 
De(Xi,8,0)), 


其 中 w 是 需要 优化 的 参数 ，(X,,7) 是 观测 到 的 离散 点 . 
对 于 在 线 问题 , 我 们 同样 选取 一 组 参数 化 的 函数 , 然后 采取 如 下 的 随机 梯度 算法 : 
wk+D=WR) -W(Xin, gn)), 
其 中 Vv 是 关于 w 的 梯度 , y> 0 是 一 个 很 小 的 步 长 . 这 种 方法 背后 的 原理 是 , 由 于 y 很 
小 ， 根 据 强大 数 定律 ， 参 数 的 更 新 会 趋向 于 


Kk+K-l 


本 > VC(Xin g,(¥1) 党 -KVE(c(X, g,(Y, ))) 到 -KVC(g,,) ” 
i=k 


熟悉 梯度 算法 的 读者 可 以 看 到 ， 这 一 项 对 应 的 是 能 够 最 小 化 C(g,) 的 梯度 算法 . 


7.2 线性 最 小 平方 估计 (LLSE) 


学 习 LLSE 之 前 ， 回 顾 一 下 前 面 一 节 中 提出 的 设 定 : 有 一 对 已 知 联合 分 布 的 随机 
变量 (和 让， 要 寻找 函数 g(7) = ao+p7 来 最 小 化 下 面 的 式 子 : 
C(8)=EU 工 -8(O 门 ， 
考虑 三 种 情况 : 已 知 随机 变量 的 分 布 ; 已 有 一 系列 观测 值 ; 每 一 次 能 够 观测 到 一 个 新 
样本 点 的 情况 . 
假设 已 知 联合 分 布 (有 如 .这 意味 着 我 们 知道 其 联合 累积 分 布 函数 已 yo) 
寻找 函数 g(D = atb 了 来 最 小 化 下 面 的 式 子 : 
C(g)=E(|X-g(7)|)=E(|(X-a-bY|). 
我 们 用 L(X17Y) 来 表示 这 个 函数 . 下 面 是 L(X17) 的 正式 定义 . 
定义 7.1 LLSE 
已 知 了 条 件 下 针 的 LLSEL(X|I7) 是 具有 at+bY 形式 的 函数 ， 能够 最 小 化 


E(|X-a-bY|). 0 
注意 到 
C(g)=E(X’*+a’ +b’Y’—2aX —2bXY +2abY) 
=E(X’*)+a’ +b°E(Y’)—2aE(X)—2bE(XY)—2abE(Y). 


为 了 找到 能 够 使 这 个 表达 式 最 小 的 a 和 5 值 , 将 上 式 对 a 和 4 分别 求 偏 导 ， 并 令 偏 导 


GD 参见 附录 A. 


为 0. 由 此 得 到 
0=2a-2E(X)+2bE(Y) ， 


0=2bE(Y’)-2E(XY)+2aE(Y). 
通过 求解 这 两 个 关于 a 和 4。 的 方程 ， 得 到 


L(X|Y)=a+bY = E(X) + E(Y)). 


ar(Y) 
上 式 用 到 了 下 面 的 等 式 : 
cov(X,Y)=E(XY)- E(X)E(Y) UR var(Y) = E(Y’)- E(Y). 
将 其 总 结 成 下 面 的 定理 . 
定理 7.2 LLSE 
LX = E00+ -EO0). 
举 - 个 例子 . 设 
Y=aX+Z i 


其 中 和 Z 是 两 个 均值 为 0 的 独立 随机 变量 . 由 独立 性 可 以 得 到 ” 
cov(X,Y)=E(XY)—-E(X)E(Y) 
=E(X(aX¥+2)) = aE(X’) 
var(Y)=Q’” var(X)+var(Z2)=a E(X’ )+E(Z’). 


因此 ， 
aE(X’) oY 
0 E(X*)+E(Z) 1+SMR 


L(XIY)= 


2 2 
yA 
(on 


(7.1) 
(7.2) 


(7.3) 


(7.4) 


被 称 为 信 嗓 比 , 即 了 的 信号 功率 E(g*X*) 除 以 噪声 功率 E(Z”) . 注意 , 如 果 SNR 很 小 ， 
那么 L(X|7) 接 近 于 0. 这 是 在 没有 任何 观测 量 的 情况 下 对 成 的 最 好 估计 值 . 如 果 SNR 


非常 大 ,那么 (ZI 六 =a- 7 ， 这 也 是 当 Z=0 时 的 正确 猜测 值 . 
再 举 一 例 . 设 
X=aY+pY” 


QD EXD = EAED=0 


(7.5) 
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其 中 ?Y=, U[0,1] ， 则 
E(X)=aE(Y)+PBE(Y’)=0/2+p/3; 
cov(X,Y)= E(XY)- E(X)E(Y) 
= E(aY*+BY’)-(g/2+B/3)(/2) 
=g/3+B/4-0/4-pB/6 
=(g+p)/12 
var(Y) = E(Y’)—E(Y’)=1/3-(1/2) =1/12. 
因此 ， 
L(XIY)=a/2+B/3+(a+BN(Y-1/2)=-B/6+(g+P)Y. 
图 7-5 绘 出 了 这 个 估计 值 . 显然 ， 通 过 观测 了 可 以 计算 筷 不 过 ， 这 里 只 考虑 线性 的 
L(X|7) 函数 . 


图 7-5 当 了 =, U[0,1] 时 L(gY+ BY?|7Y) 的 值 

投影 

从 本 质 上 来 说 ，L(X|7) 可 以 被 视 为 一 种 投影 .这 种 思想 对 于 后 面 理解 更 加 复 困 
的 估计 问题 很 有 帮助 .具体 来 说 ， 把 L(X | 了 7) 看 成 了 到 (由 了 的 线性 函数 组 成 的 ) 函 
数 空间 从 的 投影 . 

图 7-6 绘 出 了 这 种 诠释 方法 . 在 图 中 , 随机 变量 由 点 来 表示 , 而 CO 构成 了 平面 ， 
这 是 因为 该 集合 中 点 的 线性 组 合 仍然 属于 这 个 集合 (线性 函数 的 线性 组 合 仍 为 线性 函 
数 ) 在 图 中 , 从 一 个 随机 变量 入 到 另 一 个 随机 变量 万 的 模 长 平方 为 E(V-WV|). 同 
时 , 当 EYW)=0 时 , 向 量 和 和 了 丈 相 互 正 交 . 因此 , 如 果 L(XI7Y)=at+bY 了 是 XY 到 L(Y) 
的 投影 ， 则 对-L(X17) 与 每 一 个 关于 了 的 线性 函数 正 交 ， 即 

E(X-a-bY)(c+dY))=0, vc,d eR. 


@ 因此 ，E(Y*)=(+k)7. 
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L(Y)={ctaYlc,ad ER} 


图 7-6 L(X|7) 是 了 到 LZL(7) 的 投影 


另 一 种 等 价 的 说 法 是 ， 
E(X)=a+bE(Y), 并 HL E((X -a-bY)Y)=0. (7.6) 


这 两 个 式 子 与 式 (7.1 ) 和 式 (7.2 ) 是 一 样 的 . 我 们 将 式 (7.6 ) 称 为 投影 性 质 . 
图 7-7 阐述 了 如 下 情况 的 投影 : 


和 = NM0,D)，7= 和 HZ， 其 中 Z=.(0,o2)， 


在 图 中 , Z 的 模 长 等 于 VE(Z2) =o , 蕊 的 模 长 为 VE(CX2) =1, 且 向 量 蕊 与 Z 相 互 正 交 
(因为 E(XZ)=0 ). 


图 7-7 投影 的 例子 


可 以 看 出 三 角形 0XX 与 0XY 是 相似 的 . 因此 ， 


| 
加 加 
因为 ZI=VL+a”， 所 以 ， 
RE 
1 VI+o2 1l+o” 
这 说 明 
考生 2 
l+o 


在 图 7-6 中 可 以 看 到 , 投影 性 质保 证 了 LIL[X | 站] 是 CO 芒 中 离 和 最近 的 点 . 习 
这 一 点 可 以 通过 验证 下 式 得 到 : 
E(X-LIXIY]) EQ(X-h(7) |) 


由 
党 
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对 于 所 有 的 h( 六 = c+dzy 均 成 立 . 证 明 这 一 不 等 式 的 思路 是 在 以 对、L[X| 耻 和 有 (为 
顶点 的 三 角形 中 应 用 勾 股 定理 ; 
E(QX-AMY)P)= E(Q(X-LXIY]+IXIY]-AAY)T) 
=E(X-LIXIY])+E(AXIY] -A ) 
+2E((X -LX|YDIXIY]-A(Y))). 
事实 上 ， 由 于 ZIXY|7]-h(Y) 是 关于 了 的 线性 函数 ， 投 影 性 质 式 (7.6 ) 说 明了 上 式 的 
最 后 一 项 等 于 0. 于 是 ， 
E(X-h(Y)| )= EQX -LXIY])+ EQLXIY] -nO ) 
=E(X-LXIY] ), 


结论 得 证 . 
7.3 线性 回归 


现在 假设 我 们 并 不 知道 (XY,， 的 联合 分 布 ， 而 是 观测 到 了 K 个 独立 同 分 布 的 样本 
(Xi,7)…,(Xk, 半 ) . 希望 寻找 一 个 函数 g(Y)=a+tbY 使 得 
E(X-a-bY|) 
最 小 . 我们 采取 的 方法 是 通过 选取 a 和 2& 的 值 ， 让 基于 这 些 样本 点 的 误差 平方 和 最 
小 . 也 就 是 说 ， 通 过 选取 a 和 5 的 值 使 得 下 式 最 小 : 


天 
> 和 -ao 
大 =1 


为 此 ,将 上 式 分 别 对 a 和 4b 求 偏 导 ， 并 令 偏 导 为 0 可知 a 和 4。 满足 下 式 : 


X 


atby = Er OO)+ AY Ee(Y)). (7.7) 


arx (Y) 


1 < 1 娘 
Br = Xi Br(N)= TY 
k=1 k=1 


1 K 
covk (X,Y)= ZX —E.(X)E,.(Y), 
天 = 


1 天 
va (P= PY -EO 
1 


也 就 是 说 ， 式 (7.7 ) 与 式 (7.3 ) 基本 相同 ， 唯 一 的 区 别 是 由 样本 均值 取代 了 期 
望 . 式 (7.7 ) 被 称 为 由 了 到 对 的 线性 回归 ， 如 图 7-8 所 示 . 
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图 7-8 ”由 了 到 多 的 线性 回归 


下 面 的 定理 说 明了 线性 回归 与 LLSE 的 关系 . 
定理 7.3 ”线性 回归 收敛 于 LLSE 


随 着 样本 点 的 增加 ， 线 性 回归 的 结果 将 收 伍 于 LLSE. 


证 明 当 K 一 w 时 ,根据 强大 数 定律 ， 
Er(X)>E(X), Ex(Y) > EY), 
covx(X,Y)—> cov(X,Y), var x(Y)—> var(Y). 


结合 线性 回归 的 表达 式 以 及 LLSE 的 结论 就 可 以 得 出 结论 . 和 

式 (7.3 ) 以 及 线性 回归 为 协 方差 提供 了 一 种 更 直观 的 理解 . 如 果 协 方差 为 0， 则 
ZL[XI 习 与 了 不 相关 . 如 果 协 方差 为 正 ( 负 ), 则 它 随 着 了 而 增 大 ( 减 小 ). 因此 , cov(X,7Y) 
可 以 被 视 为 线性 回归 意义 下 对 相关 性 的 一 种 度量 . 例如 ， 图 7-9 中 的 随机 变量 是 彼此 
不 相关 的 ， 因 为 LI 并 不 依赖 于 Y. 


Ds 


等 可 能 


人 wy 


7-9 ”随机 变量 与 了 彼此 不 相关 ， 但 它们 并 不 是 相互 独立 的 


7.4 最 小 均 方 估计 (MMSE) 


上 一 节 研 究 了 通过 寻找 线性 方程 4+tb 了 来 近似 使 得 最 小 平方 误差 最 小 的 问题 . 事 
实 上 , 也 可 以 将 结论 推广 到 二 次 方 近似 a+bY+c 站 或 者 任意 阶 的 多 项 式 形式 近似 . 其 
基本 思想 是 相同 的 ， 并 且 同 样 可 以 通过 投影 的 概念 来 理解 . 

原则 上 ， 高 阶 的 多 项 式 函 数 可 以 更 好 地 拟 合 X， 因 为 相对 于 低 阶 的 多 项 式 函 数 ， 
它们 有 更 多 的 多 项 式 函 数 可 供 选 择 . 但 是 这 时 候 ， 证 全 部 参数 符合 给 定 的 观测 量 会 更 
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为 复杂 . 例如 , 如 果 有 天 个 样本 点 ,就 可 以 找到 一 个 天 阶 的 多 项 式 函数 来 准确 地 拟 合 
这 些 观 测 点 . 可 是 ， 这 并 不 意味 着 采用 这 个 多 项 式 函 数 就 会 比 采用 低 阶 的 多 项 式 函 数 
得 到 更 小 的 均 方 误差 . 这 种 情况 叫 作 过 度 拟 合 . 
现在 ， 假 设 知道 和 刃 的 联合 分 布 函 数 ， 和 希望 寻找 一 个 函数 g( 刃 使 得 
EUX-sg(7)P) 最小， 最 好 的 函数 就 是 给 定 了 条 件 下 了 的 MMSE. 有 如 下 定理 . 
定理 7.4 MMSE 是 一 个 条 件 期 户 


给 定 了 条 件 下 于 的 MMSE 为 


SC) = ELXI7], 


其 中 E[XI 门 是 给 定 了 条 件 下 XY 的 条 件 期 望 
在 证 明 这 一 结论 之 前 ， 首 先 定义 条 件 期 望 . 
定义 7.5 条件 期 望 

给 定 了 条 件 下 环 的 条 件 期 望 定义 为 


E[XIY=»]=| xfiv[x| yd 


其 中 

rp 人 

方 (WU) 

是 给 定 了 条 件 下 XY 的 条 件 概率 密度 函数 . 9 


图 7-10 阐述 了 条 件 期 望 的 含义 . 图 中 假定 均匀 地 从 阴影 区 域 中 选取 (C% 尺 . 因此 , 如 
果 观 测 到 了 es (y,y+dy) ， 那么 对 点 均匀 分 布 在 Y= y 的 长 条 阴影 区 域 中 .因此 , 的 平 
均值 是 这 个 长 条 区 域 的 中 点 ,如 图 所 示 . 图 中 的 点 划 线 展示 了 了 如 何 决定 均值 以 及 E[XI7. 


fxrLx1y]= 


PX 


7 EL 


图 7-10 从 阴影 区 域 中 均匀 地 选取 (8 DD 时， 条 件 期 望 BLXI 习 的 情况 
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下 面 的 结论 可 直接 由 定义 得 到 . 
引 理 7.6 MMSE 的 正 交 性 质 


(a) 对 于 任意 函数 G() ， 有 
E((X—E[X|Y])G(Y))=0. (7.8) 
(b) 如 果 函 数 g( 站 满足 
E((X—-g(Y))G(Y)) =0, v¢(), (7.9) 
则 g(Y) = ELXI|Y]. 
证 明 
(a) 为 证 明 式 (7.8 )， 注 意 
EC(ELX|YIGO)=| ELXIY = 7160)f;, 0)dy 


i i fx Y (x, y) 
二 > dx d 
[| re A 


一 jl, XG(V) fxy (x,y)dxdy 
= E(XG(Y)). 


式 (7.8 ) 得 证 . 

(b) 为 证 明 引 理 第 二 部 分 ,注意 让 式 (7.9 ) 中 9G(7) = g(7)-E[X| 了 ,并 使 用 式 (7.8). 
我 们 得 到 : 

E(| g(7)-E[XIY]ID) 
=E((g(Y)-ELX|YD){(e(Y)-X)-E(XIY]-X)})=0, 

注意 到 ， 引 理 的 第 二 部 分 说 明了 : 投影 性 质 唯一 地 决定 了 条 件 期 望 ， 也 就 是 说 ， 
了 到 0(7) 的 投影 只 有 一 个 . 和 

现在 来 证 明定 理 7.4. 

定理 7.4 的 证 明 

等 式 (7.8 ) 是 投影 性 质 . 它 说 明了 ~- E[X|7Y] 垂直 于 了 的 函数 族 9( 妨 , 如 图 7-11 
所 示 . 因此 , 它 也 垂直 于 h(Y)-E[X|7Y]. 和 LLSE 的 情形 相似 , 这 个 投影 性 质 说 明 对 
任意 函数 AD) 都 有 


E(|X-hY)|)E(X-EXIY]). 
这 就 说 明 E[X| 了 疏 确 实 是 给 定 了 条 件 下 XY 的 MMSE. 出 
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GD = (OO) 是 一 个 国 数 } 


图 7-11 条 件 期 望 克 和 | 妆 就 是 和 到 了 的 函数 族 9(7) 的 投影 


根据 定义 ,我 们 知道 如 何 通 过 给 定 了 条 件 下 对 的 条 件 概 率 分 布 来 求 得 E[X|7]. 然 
而 ,很 多 情况 下 可 以 通过 更 简单 的 方法 求 得 EB[X|1Y] 下面 的 方法 利用 了 条 件 期 望 的 
性 质 . 
定理 7.7 条 件 期 望 的 性 质 
(a) 线性 : E[a XY +a,X,|Y]=aE[X,|Y]+a,E[X, |7] 
(b) 分 解 已 知 量 : E[h(Y)XIY]=h(Y)E[X |7] 
(c) 光滑 性 : E(E[X|Y])=E(X) 
(d) 独立 性 : 当 针 与 了 相互 独立 时 ，E[X|Y]= E(X) 


证 明 
(a) 首先 ，a,(X, 一 BE[X,| 门 ) ， (i= 1,2) 垂直 于 9 已 . 因此 ， 
aXl+a,X, —(aE[X | Y]+a,E[lX, 17Y]) 
垂直 于 9(7). 现在 使 用 引 理 7.6(b) 即 可 得 到 结论 . 
(b) 只 需要 证 明 


h(Y)X -NYIELX |Y] 
垂直 于 9(7)， 即 


E((A(Y)X—h(Y)ELX|Y]D)GY)) = 0, VG(.). 
然后 结论 可 以 由 引 理 7.6(b) 得 到 . 现在， 由 于 XY-E[X| 耻 垂直 于 9 已 ， 它 也 垂直 于 
h(Y)b(Y) ， 由 此 ， 
E((RY)IX—hYIELXIYDGY)) = E((X -ELXIYD)AY)GY))=0. 
(c) 设 式 (7.8) 中 的 $07)=1， 则 
E(X-E[XIY])=0. 


E((X-E(X))G(Y)) =E(X-E(X)E(G(Y))=0. 
这 里 第 一 个 等 式 成 立 的 原因 是 -EB(X) 与 8(7Y) 相 互 独立 (两 个 相互 独立 的 随机 变量 ， 
其 函数 也 相互 独立 ) ?， 这 说 明 


XE(X) 
垂直 于 0(7). 根据 引 理 7.6(b)， 可 知 命题 得 证 . 和 
下 面 通过 一 个 例子 来 看 这 些 结论 . 假设 XY、2 为 独立 同 分 布 于 UT0, 1] 的 随机 变 
量 . 希望 计算 


E[(X +27) |7]. 


于 X= pLf0, 1], 
E[(G+27)|P]=E[Y+47P+4X77] 
=E[2|7+4E[7P17I+4E[X7, 由 期 望 的 线性 性 
=E(X2)+4E[7YY+4E[XY|7, 由 变量 相互 独立 性 质 得 到 
=EC2)+4P+4IE[XI 习 ,在 条 件 期 望 中 将 已 知 值 提 出 期 望 外 
=E2)+4P+H4IFCO, 由 变量 独立 性 质 得 到 


-34+4 27. 


注意 ， 如 果 没 有 以 上 条 件 期 望 的 性 质 ， 给 定 了 时 计算 (+27) 会 很 繁 瑛 . 
在 有 些 情 况 下 , 还 可 以 利用 对 称 性 来 计算 条 件 期 望 . 设 X 了 Y、Z 是 独立 同 分 布 的 ， 
那么 


ELXIX+Y+2]=3(X+Y+2). (7.10) 
式 (7.10 ) 利用 了 对 称 性 ， 
已 和 | 和 +7+Z]=EI7IX+7+Z]=EIZIX+7+Z] 


设 它们 的 值 都 是 VY， 根据 线性 ， 它 们 的 和 为 
WV=E[X+Y+Z|X+Y+2]. 


因此 ，3V = 了 + 了 Y+Z ， 结 论 得 证 . 
联合 高 斯 分 布 的 MMSE 


一 般 来 说 ，L[XY|7]E[X|7] . 举 一 个 简单 的 例子 , 设 7Y=, U[-1,1] 且 XY=Y?， 
则 cov(X,7)=E(XY)-E(X)E(Y)=0. 因此 ,，E[X|IY]= 站 ,但 LX|IY]=E(X)=1/3. 


QD 参见 附录 A. 
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图 7-12 强调 了 好 和 | 六 是 筷 到 9(D) 的 投影 ，L[X| 了 是 了 到 人 7) 的 投影 .因为 
CO 中 是 9(7) 的 子 空间 ， 所 以 这 两 个 投影 通常 是 不 相同 的 . 不 过 ， 有 些 时 候 玖 和 | 妇 碰 
巧 是 线性 的 ， 比 如 式 ( 7.10 )， 当 然 ， 也 不 难 构造 更 多 其 他 的 例子 . 


L(Y={atbYla,b ER} 
9( 站 ={g( 站 lg(-) 是 一 个 函数 } 


7-12 ”通常 来 说 ，MMSE 和 LLSE 的 结果 是 不 同 的 


不 过 , 这 一 结果 在 当 了 和 了 为 联合 高 斯 分 布 的 情况 下 也 成 立 . 由 于 联合 高 斯 问题 
的 重要 性 ， 我 们 将 这 一 结论 单独 总 结 成 如 下 定理 . 
定理 7.8 联合 高 斯 分 布 的 MMSE 


设 系 和 了 是 服从 联合 高 斯 分 布 的 随机 变量 ， 则 


EI[X|Y]=LXIY] = E+ Dy_ E07). 
var(Y) 


证 明 
首先 ， 我 们 注意 到 
也 -Z[ 二 丸 与 立 是 不 相关 的 . 
同时 ， 大 -二 XIZ 与 了 是 服从 联合 高 斯 分 布 的 随机 变量 并 和 了 的 两 个 线性 函数 . 所 
以 ， 由 定理 6.5 可 知 它们 服从 联合 高 斯 分 布 . 并 且 由 定理 6.4 可 知 它们 相互 独立 . 
因此 ， 对 任意 Y() ， 


了 -LZ[X| 了 站 与 4(7) 相 互 独立 . 
这 是 因为 彼此 独立 的 随机 变量 的 函数 也 彼此 独立 (这 一 性 质 在 附录 A 的 定理 A.9 
中 有 说 明 )， 于 是 ， 由 附录 A 的 定理 A.6 可 知 ， 对 所 有 的 f(-) ， 
对 -LI[X| 耻 与 8(7) 不 相关 . 


这 表明 
了 -Z[X| 太 垂直 于 0(7)， 
因此 ，L[X|Y] = BE[X|7]. 二 
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7.5 随机 向 量 的 情况 


到 目前 为 止 ,我 们 把 关注 点 放 在 了 讨论 XY 和 了 是 标量 随机 变量 情况 下 的 LLX | 站 和 
E[X | 了 7 . 在 这 一 节 , 我 们 将 考虑 随机 向 量 的 情况 , 即 和 和 了 是 随机 向 量 时 的 LLX | 了 六] 


定义 7.9 ”随机 向 量 的 LLSE 
设 半 和 了 分 别 是 m 和 nn 维 的 随机 向 量 . 则 
LIX|IY]= AY+b, 
其 中 4 是 mx 的 抵 阵 , b 是 名 ”的 向 量 ,使 得 
E(|XX-AY Db) 最 小 . 9 


与 标量 的 情况 一 样 ，LLSE 是 在 最 小 均 方 误差 意义 下 对 天 的 最 好 的 线性 估 值 . 
下 面 的 推导 会 用 到 A.5 节 中 关于 和 cov(X%, 丸 的 概念 . 
定理 7.10 ”随机 向 量 的 LLSE 


设 关 和 了 都 是 随机 向 量 ， 且 站 y 是 满 秩 的 ， 


(a) 则 ， 
LIXIY]=E(X)+cov(X,7), (Y-E(Y)). (7.11) 
(b) 更 进一步 ， 


E(|X-LIX|Y]I)= tr(》 ,~cov(X,Y)D, cov(Y, X)). (7.12) 


在 这 个 表达 式 中 ， 对 于 方 阵 M，tr(M):= 》 M,, 为 矩阵 的 迹 . 


证 明 
(a) 对 向 量 的 证 明 与 标量 的 情况 类 似 . 设 Z 为 式 (7.11 ) 的 右边 . 下 面 先 推出 误 
差 X-Z 与 所 有 的 了 的 线性 函数 正 交 .然后 由 这 一 点 推出 环比 所 有 的 王 的 线性 函数 1 了 功 
都 更 靠近 2Z. 
首先 来 证 明正 交 性 . 因为 ECX-2) =0， 所 以 
E(X-Z)N(BY+b))=E(X-Z)NBY)) = EX-Z)FD)B' 


然后 证 明 E((X-2Z)Y) = 0. 注意 到 
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全 


E((X-Z)7")=E(X-Z)(Y-E(Y))) 
=E((X-E(X)Y -E(Y))) 
—cov(X,Y) E((Y -EE(YN(Y -E(Y)') 
=cov(X,Y)—cov(X,7)>y > =0. 
接 下 来 , 证 明 Z 比 了 的 所 有 线性 函数 h( 了 都 更 靠近 X. 
E(X -a )= EC(X -NF))X -AY)) 
=E(X-Z+Z-hY)(X-Z+Z-h(Y)) 
=E(|X -Z|)+ E02 -nD +2E(X -2)(2 -A(7))). 
现在 证 明 最 后 一 项 等 于 0. 注意 到 


E(X-Z2)(Z-Ah(Y)) = PE, -2.)(2; —h(7))). 


同时 
E((X,—2)(2;—h(7)) = E((X -ZZ -AY))),,. 
为 X-Z 垂直 于 所 有 了 的 线性 函数 ,包括 Z-h( 了 让， 所 以 矩阵 E((X-Z)(Z -h(7))) 等 
于 0. 
( 注意: 证 明 最 后 一 项 为 0 的 另 一 种 方法 是 
E((X-Z)(Z-hY))=trE((X-Z)N(Z-h(F))) =0, 
其 中 , 第 一 个 等 式 成 立 是 因为 tr(4B) = tr(34) 对 于 维 数 相 容 ( 即 适合 运算 ) 的 矩阵 都 成 
立 . ) 
(b) 设 X:=X-ZIXIZ] 为 估计 的 误差 ， 则 
=X-ELX]-cov(X,7)D, (Y -ECY)). 
设 天 和 了 球 是 两 个 均值 为 0 的 随机 向 量 ，M 是 一 个 矩阵， 则 
cov(V -MW)=E(V -MW)(V - MW)) 
= EVV'-2MWV'+ MWW M") 
= cov(V)—2M cov(W,V)+M cov(W IM.' 


因此 ， 
cov(X) =2 -2cov(X,7)27 cov(Y, X) 
+Ccov(X, 了 27Z 2 cov(Y,X) 
= 了 ,一 cov(X, 了 2 cov(Y, X). 
最 后 ， 我 们 用 下 面 的 性 质 来 完成 证 明 。 对 于 均值 为 0 的 随机 向 量 岂 
E(IV NF)= ErGP7)=tCEOP7)=tr(2y). 入 
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卡尔 曼 滤波 器 是 一 种 使 用 系统 的 输出 来 对 系统 当前 状态 估计 进行 更 新 的 算法 ， 如 
图 7-13 所 示 . 在 时 刻 n(n = 0, 1,…)， 系 统 的 状态 记 为 X(n)， 输 出 记 为 Y(n)， 这 些 变 
量 的 演变 由 一 组 线性 方程 来 定义 : 


Xn+l)= AX(n)+V(n), n= 0; (7.13) 
Y(n)=CX(n)+W(n), n= 0. (7.14) 
系统 滤波 器 


Y(n) X(n) 
X(n) KF — 
输出 


图 7-13 卡尔 曼 滤波 器 ( KF ) 用 系统 上 某 一 时 刻 的 输出 来 计算 系统 此 刻 状 态 的 LLSE 


在 这 组 方程 中 , 随机 变量 {XY(0),V(n), 到 (mn),n 宇 0} 互相 正 交 , 且 均 值 都 为 0. V(n) 
的 协 方差 为 2 ，WV(n) 的 协 方差 为 2 .描述 这 个 滤波 器 时 ， 变量 是 随机 向 量 , 4 和 C 
是 维 数 相 容 的 和 矩阵. 
我 们 要 推导 出 递归 的 等 式 来 计算 : 
Fn) = LX) | YO0),.…,Y(n)], n=0. 


7.6.1 滤波 器 


下 面 给 出 结论 ， 具 体 的 证 明 会 在 下 一 节 给 出 . 虽然 这 里 的 方程 看 起 来 有 点 复杂 ， 
但 是 不 也 \ 民 张 . 


图 7-14 和 鲁 道夫 ' 卡尔 曼 (1930 一 ) 


定理 7.11 卡尔 曼 滤 波 器 


X(n)= AX(n-l)+K,[Y(n) -CAX(n-))] (7.15) 
开 , = 8 CTCSC'+2 (7.16 ) 
S, = AY, ,A'+Y, (7.17) 


5,=(—K,C)S,. (7.18) 
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同时 
S, =cov(X(n)— AX(n-1), E,=cov(X(n) -Xn)). (7.19) 


下 面 会 给 出 很 多 应 用 这 个 结论 的 例子 ， 首 先 来 看 一 些 说 明 . 

口 方程 (7.15) ~ 〈7.18 ) 是 递归 的 : 在 时 刻 n 的 估计 值 是 关于 时 刻 n-1 估计 值 

以 及 新 观测 值 Y(n) 的 简单 线性 函数 . 

口 矩阵 Kk, 表示 滤波 器 的 增益 ,可 以 在 时 刻 0 提前 计算 出 来 . 

口 误差 X(n)- 凶 (nm) 的 协 方差 ,不 依赖 于 观测 值 {Y(0)…,Y(n)} ， 因 此 可 以 在 时 刻 
0 就 提前 计算 出 来 . 估计 值钱 (n) 依 赖 于 这 些 观测 值 , 但 是 误差 并 不 依赖 于 这 些 
观测 值 . 

口 如 果 X(0) 与 噪声 随机 变量 都 服从 高 斯 分 布 ,那么 卡尔 曼 滤 波 器 算出 的 是 MMSE. 

口 最 后 可 以 看 到 , 尽管 这 些 方程 有 一 些 复杂 ,但 在 程序 实现 上 只 需要 几 行 代码 .由 
于 这 一 便利 ， 卡尔 曼 滤波 器 在 实际 应 用 中 广 受 推崇 . 


7.6.2 示例 


本 节 讨 论 几 个 卡尔 曼 滤 波 器 的 例子 . 


1. 随机 游 走 
卡尔 曼 滤 波 器 的 第 一 个 实例 是 通过 带 噪 声 的 观测 值 来 追踪 一 个 随机 游 走 . 


设 
X(n+l)= Xn)+V(n) (7.20) 
Y(n)= X(N) +W(n) (7.21) 
var(V (n)) = 0.04, var(W(n)) = 0.09. (7.22) 


也 就 是 说 ，X(n) 有 相互 正 交 的 增 量 ,， 并且 在 观测 时 禹 有 互相 正 交 的 噪声 . 图 
7-15 给 出 了 这 个 滤波 器 的 仿真 . 左 图 表明 对 状态 的 估计 值 很 好 地 追踪 了 系统 的 状 
态 ， 误 差 有 限 . 中 间 的 图 给 出 了 误差 的 方差 . 这 一 方差 可 以 提前 计算 . 右 图 给 出 
了 具有 时 变 增益 的 滤波 右 ( 蓝 色 ) 以 及 具有 稳 态 增益 的 滤波 器 ( 绿色 ) 考虑 长 期 
性 能 的 时 候 ， 采 用 常数 增益 的 滤波 器 与 采用 时 变 增益 的 滤波 器 表现 都 很 好 . 
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2 0045 100| 
Xn) Rey 
| Xn) 980- WO) | 
0005 他 XU 普通 卡尔 曼 滤波 器 
过 60 f 
om X+(): 稳 态 卡尔 曲 滤 波 器 
0025 40 
002 20 
O015 
0 
001 
0005 ba 
0 3 ; 2 
20 400 20 30 40 50 


图 7-15 式 (7.20) ~ (7.22 ) 的 卡尔 曼 滤 波 器 ( 男 见 彩 插 


Na 


2. 带 未 知 漂移 的 随机 游 走 
第 二 个 例子 研究 具有 未 知 漂移 的 随机 游 走 . 系统 根据 如 下 方程 构成 的 模型 进行 演变 : 


Xn+D)=X n+X,(n)+V(n) (7.23) 
X,(n+1)=X,(n) (7.24) 
Y(n)=X(n) +W(n) (7.25 ) 
var(V (n)) =1, var(W(n)) = 0.25 . (7.26 ) 


在 这 个 模型 中 ， 有 %(n) 是 恒定 但 未 知 的 漂移 ，(n) 是 随机 游 走 的 值 ， 图 7-16 给 出 
了 滤波 器 的 仿真 . 从 图 中 可 以 看 到 ， 滤 波 器 逐渐 得 到 了 漂移 值 ， 对 于 游 走 位 置 的 估计 
也 非常 准确 . 


Xn) Xn) 
Fn) Xm) 


7-16 式 (7.23) ~ (7.26) 的 卡尔 曼 滤 波 器 〈( 另 见 彩 搬 ) 
3. 具有 变化 漂移 的 随机 游 走 
第 三 个 例子 研究 具有 变化 漂移 的 随机 游 走 ， 系统 的 演变 由 如 下 方程 决定 : 
Xn+l)=X (n+X,(n)+V(n) (7.27) 
Xn+l)=X,(n)+W,(n) (7.28) 


Y(m=X (+W(n) (7.29 ) 
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var(V (n)) =1, var(V,(n)) =0.01 (7.30) 

var(W(n)) = 0.25 . (7.31 ) 

在 这 个 模型 中 ，X,(n) 是 变化 的 漂移 ，Y (n) 是 随机 游 走 的 值 . 图 7-17 给 出 了 滤 

波 器 的 仿真 .此 图 表明 滤波 器 尝试 追踪 漂移 的 值 ， 并 且 对 于 游 走 的 位 置 给 出 了 准确 的 
估计 . 


Xi(n) | Xo(nm) | 
| 
Xi1(n) 


图 7-17 式 (7.27) ~ (7.31 ) 的 卡尔 曼 滤 波 器 ( 男 见 彩 插 


Se 


4. 自由 下 落 的 物体 
第 四 个 例子 研究 坠落 物体 的 轨迹 .自由 下 落 物 体 的 高 度 Z(n) 满 足 如 下 等 式 : 
Zn)=2Z(0)+S(0)n— gn 712+F0D, 7 二 0 . 

其 中 S(0) 是 物体 沿 垂 直方 向 的 初速 度 ，g 是 地 球 表面 的 万 有 引力 常数 .在 这 个 表达 式 
中 ， 拟 四 表示 干扰 运动 的 一 些 扰动 . 在 每 个 时 刻 可 以 观察 到 7(0D = Z(0D)+ 丈 (0) ， 其 中 
Wln) 是 测量 中 的 品 声 . 
由 于 -gn” /2 是 已 知 的 ， 所 以 
Xn)=Zn)+en /2 HY(n)=n(n)+en’ /2. 


通过 上 述 变量 的 变换 之 后 ， 系 统 的 变化 可 以 用 如 下 的 等 式 来 描述 : 


Xnt+l)= XN) +X,n) +V(n) (7.32) 
X,(n+1)=X,(n) (7.33 ) 
Y(n)= Xn) +W(n) (7.34 ) 
var(V(n)) =100, var(W (n)) =1600 . (7.35 ) 


图 7-18 给 出 了 滤波 器 的 仿真 .滤波 器 计算 出 总 (z) 的 值 ， 我 们 从 中 减 去 gr? /2 来 
得 到 物体 实际 高 度 Z(n) 的 估计 值 . 
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0 5 10 15 20 中 30 


图 7-18 式 (732) ~ (7.35 ) 的 卡尔 曼 滤波 器 〈 另 件 彩 搬 ) 
7.7 人 小结 


口 LLSE， 线 性 回归 ,MMSE 

口 投影 的 特性 

口 联合 高 斯 分 布 的 MMSE 是 线性 的 
口 卡尔 曼 滤 波 器 


重要 方程 与 公式 
LLSE LI[XIY]=E(X)+cov(X,Y) var(Y)(Y - E(Y)) 定理 7.2 
正 交 性 X-LIX|IY] LatbY 式 (7.6) 
线性 回归 收敛 于 L[X | 定理 7.3 
条 件 期 望 E[X|Y]=…… 定义 7.5 
正 交 性 X-E[X|IY] | g(7) 引 理 7.6 
MMSE 为 条 件 期 望 MMSE[X |Y]= E[X|7] 定理 7.4 
条 件 期 望 的 性 质 线性 性 、 光 滑 性 等 定理 7.7 
联合 高 斯 分 布 的 条 件 期 望 若 X 和 7 服从 联合 高 斯 分 布 ， 则 E[XIY]= LXIY]=… 定理 7.8 
LLSE 向 量 LIXI 四 = ED+ZxyZ -EC 定理 7.10 
卡尔 曼 滤 波 右 Rn)= AR(n-l)+K,[Y(n) -CAX(n-)] 定理 7.11 


7.8 参考 资料 


LLSE、MMSE 和 线性 回归 在 Introduction to Probability [Bertsekas and Tsitsiklis ， 
2008] 一 书 的 第 4 章 有 所 论述 . 卡尔 曼 于 1960 年 在 “A New Approach to Linear Filtering 
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and Prediction Problems” 一 文中 首次 提出 并 介绍 了 卡尔 受 滤 波 句 . Brown 和 Hwang 在 
Jntroduction to Random Signals and Applied Kalman Filtering 一 书 中 给 出 了 有 关于 卡尔 
曼 滤 波 器 的 入门 知识 以 及 很 多 例子 . 


7.9 练习 


1. 设计 ,= 名 +2Y7”+2Z,， 其 中 ,和 ,是 独立 同 分 布 于 UI0, 1] 的 随机 变量 . 

(a) 计算 LX 以 及 E((X -LX17])”). 

(b) 计算 9[XI 习 以 及 E((X -QL[X17]))， 其 中 Q[XI 习 是 给 定 了 条 件 下 XX 的 二 次 方 
最 小 平方 误差 估计 . 

(c) 用 Matlab 实现 一 个 能 够 计算 O[XI 习 的 随机 梯度 算法 并 计算 9[XI 六 . 

2. 比较 用 离线 方法 和 在 线 方法 计算 LILXI 习 的 不 同 .参数 和 变量 的 设 定 与 题 1 一致 . 


(a) 产生 N= 1000 个 样本 点 ,计算 给 定 了 条 件 下 的 线性 回归 .将 管 案 记 作 凶 =aY+b. 
(b) 给 定 同样 的 样本 点 ， 用 随机 化 的 梯度 算法 来 递归 计算 线性 拟 合 的 值 . 将 所 得 


答案 记 为 Y= cY+d. 
(c) 通过 计算 E(( 对 -a7 -5b)") 和 E((-c7Y-qd)) 来 比较 两 个 结果 的 优 劣 . 
3. 随机 变量 和 了 、Z 服从 联合 高 斯 分 布 ， 


2 2 1 
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). 


(a) 计算 B[XIY,2]. 
(b) 计算 误差 的 方差 . 


4. 根据 分 布 f(x) = 7e "(0 e 区) 采样 三 个 独立 同 分 布 的 样本 点 名、 和 和 及 .其 


中 9 是 需要 估 值 的 参数 . 计算 MLE[0| ,X,Y,]. 
5. (a) 给 定 三 个 独立 同 分 布 于 N(0, 1) 的 随机 变量 、Y、2Z， 求 下 式 在 最 小 均 方 误 
差 下 的 估计 值 : ELX+3727Y+521. 
(b) 求 上 式 估计 值 的 均 方 误差 . 
6. 给 定 两 个 相互 独立 的 W0, 1) 随 机 变量 和 了 Y,， 求 下 式 的 线性 最 小 平方 估计 : 
LIXIX*+Y]. 


提示 : 服从 M0, 1) 分 布 的 随机 变量 著 的 特征 函数 为 B(e™w)=e? . 
7. 考虑 具有 个 传感器 的 传 感 网 络 ,对 于 信号 六 有 一 系列 观测 值 Y* = (7,…,Y,) ， 
其 中 
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Y=aX+Z,(i=1,.…,n). 


在 上 式 中 ， 针 =, N(0,1) 且 2Z,=, N(0,o”) (i= 1,…,n)， 并 且 这 些 随机 变量 是 相 
互 独立 的 . 
(a) 计算 给 定 Y”" 时 的 MMSE 佑 计 . 
(b) 计算 这 个 估计 值 的 均 方 误差 o,”. 
(c) 假设 每 次 观测 所 付出 的 代价 为 C. 者 希望 
nC+o,” 
最 小 ， 计 算 n 的 最 优 值 . 
(d) 假设 在 每 一 步 都 可 以 决定 再 进行 一 次 测量 或 者 停止 ,我们 要 使 得 vC +o 的 
期 望 值 最 小 ， 其 中 的 随机 变量 v 是 测量 的 次 数 . 是 否 有 一 种 决策 方法 能 够 比 (c) 中 得 出 
的 定 值 更 好 ?请 解释 你 的 结论 . 
8. 为 了 用 卡尔 曼 滤 波 器 来 检测 微 博 中 某 个 词语 的 使 用 频率 变化 , 设 第 半天 这 个 词 办 
语 在 微 博 中 出 现 了 YX(n) 次 ， 建 模 如 下 : C7 
X(n+l)= Xn) 
Y(m)=X(n)+W(n), 


其 中 Fn) 的 均值 为 0, 彼此 不 相关 .这 个 模型 的 意思 是 观测 到 事件 发 生 了 很 多 次 ， 发 
生 次 数 的 均值 Kn) 是 未 知 的 常数 . 因此 ,如 果 均 值 在 变化 ,就 能 够 通过 观察 7(n) 与 Y(n) 
之 间 的 误差 变 大 来 检测 到 .提出 一 个 算法 来 检测 这 种 变化 ， 并 在 Matlab 中 进行 仿真 . 

9. 随机 变量 站 服从 指数 分 布 ， 均 值 为 1， 随机 变量 了 呈 指 数 分 布 ， 参 数 为 站. 

(a) 计算 E[YIA]. 

(b) 计算 E[XI| 习 . 

10.X、7、2Z 为 独立 同 分 布 的 M0, 1) 变 量 

(a) 计算 LLX?+Y?|X+Y]. 

(b) 计算 E[ 和 +27| 生 +37+4Z] . 

(c) 计算 E[(X + 六 ?|X 了. 

11. 设 (V,n 宇 0) 独 立 同 分 布 于 N(0,o*) ,， 且 与 和 = WO) 独立 .定义 

X=aX, +V,,n 二 0. 


(a) 求 式 (n 宇 1) 的 分 布 . 

(b) 计算 E[X,,, |X](m 三 n<n+t+m). 

(c) 计算 使 得 所 有 部 具有 相同 分 布 的 zx 值 . 

12. 设 9=, U[0,1] . 给 定 96， 随 机 变量 邓 均 匀 分 布 在 [0,6] 上 . 计算 E[9|X]. 
13. 设 (X,7) ~ N([0;0],[3,1;1,1]) . 求 E[X?|Y]. 
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14. 设 (X,Y,2) ~ N([0;0;0],[5,3,1;3,9,3;1,3,1]) . 求 E[X|Y,2]. 
15. 对 于 任意 的 随机 变量 蕊 和 也 证 明 如 下 的 性 质 : 

var(Y)= E(var(Y | X))+var(E(Y |X)). 
16. 设 两 个 随机 变量 并 和 了 的 联合 密度 为 


天 1 全 本 0Cx HOSxXSINOSyEY. 


首先 证 明 这 是 一 个 合理 的 联合 概率 密度 函数 . 然后 , 假设 从 这 个 联合 分 布 中 观测 
到 了 了 的 值 ， 求 MMSELXI|7. 
17. 给 定 四 个 相互 独立 、 服 从 N(0, 1) 分 布 的 随机 变量 人 了、Z 和 人 VV， 求 下 式 的 最 
小 方 均 误差 估计 值 : 
E[X+2Y+3Z|Y+5Z+4V]. 


然后 ， 求 这 个 估计 值 的 均 方 误差 . 
18. 设 和 和 了 是 满足 如 8| 妆 = 到 和 | 妆 的 随机 变量 . 那么 一 定 有 : 
口 对 和 了 服从 联合 高 斯 分 布 ; 
口 卫 可 以 写作 了 =aY+Z， 其 中 Z 是 独立 于 了 的 随机 变量 ; 
口 EB((X -LIX|Y]DY*)=0 对 于 所 有 的 k 宇 0 成立 ; 
口 E((X—-L[LXIY])sinGY+5))=0. 


19. 在 具有 高 斯 噪声 的 线性 系统 中 ， 系 统 状态 为 ,观测 值 为 7， 卡尔 曼 滤 波 器 

能 够 计算 〈 请 选择 正确 管 案 ，Y”= (Y(1),…,Y(n)) ): 

D MLE[Y, | X"] 

MLE[X, |Y"] 

MAPI[Y, | X"] 

MAP[X, |Y”] 

ELX, |Y"] 

ELY, | X"] 

ELX, |Y,] 

口 ELY, | X,] 


DOODOODODODO DO 


[2,1,3,4,5] ， 玉 =[ 了 ,也 , 马 , 世 ] ， 并 且 
6 12 8 

9 18 12 

9 14 28 18|. 

12 18 28 56 30 

8 12 18 36 24 


20. 设 (了 了 ) 服从 N(1,>)， 其 中 j= 
4 
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计算 E[XI. 
21. 设 X=4 Y= CF， 其 中 严 = N(0, D， 计算 ELXIY]. 
22. 给 定 9e{0,1} ，X = NW(0,>,) ， 其 中 


二 和 
0 1 p 1 


D> 0 为 给 定 值 . 
计算 MLE[0|X]. 
23. 给 定 两 个 独立 分 布 为 M0, 1) 的 随机 变量 和 了 ,计算 下 式 的 线性 最 小 平方 估计 : 
L[X|X’+Y]. 


提示 : 服从 M0, 1) 分 布 的 随机 变量 的 特征 函数 为 


E(esr) =e 

24. 设 人 了 、Z 独立 同 分 布 于 .M0, 1). 计算 
E[X|X+Y,X+Z,Y-2Z]. 
提示 : 请 说 明 观 测 值 关 Z 是 多 余 的 . 
25， 设 到 了 i 为 和 为 的 均值 都 是 0， 协 方差 矩阵 为 


10 6 5 16 
6 9 6 21 
= : 
5 6 6 18 
16 21 18 57 


计算 L[XIY', 5, 六 ]. 
提示 : 你 会 发 现 是 一 个 奇异 阵 . 这 意味 着 至 少 一 个 观测 值 (页 、 歹 或 二) 是 
多 余 的 ， 因 为 它 是 其 他 两 个 观测 值 的 线性 组 合 . 这 意味 着 LLXIY, ,73] = L[XIY, 久 ]. 


第 公章 


追踪 定位 一 B 


主题 : 卡尔 受 滤波 器 的 推导 及 性 质 ; 扩展 卡尔 受 滤 波 器 


背景 知识 : 第 7 章 


在 第 7 章 中 , 我 们 解释 了 如 何 通过 观察 对 随机 变量 进行 估计 ， 并 且 介绍 了 卡尔 曼 
滤波 器 及 一 些 例子 . 本 章 将 对 卡尔 曼 滤 波 器 进行 推导 并 曾 述 它 的 一 些 性 质 ， 还 将 进 一 
步 讨 论 扩展 卡尔 曼 滤 波 骨 . 


8.1 LLSE 的 更 新 


在 很 多 情况 下 , 我 们 会 不 断 地 进行 观察 并 希望 依据 观察 得 到 的 数据 对 随机 变量 的 
估计 进行 更 新 ， 此 时 ， 我 们 希望 能 利用 一 些 已 有 的 结果 ， 而 不 是 每 次 都 从 头 算 起 . 也 
就 是 说 ,我 们 希望 在 知道 L[X|17Y] 和 2Z 的 情况 下 ， 能 够 高 效 地 计算 出 L[X|Y,21. 

下 面 的 定理 给 出 了 这 个 方法 的 主要 思想 . 

定理 8.1 LLSE 的 更 新 一 一 加 性 正 交 化 观测 


设 针 、 了 、Z 为 均值 为 0 的 随机 变量 ,， 并且 了 与 Z 互相 正 交 .那么 ， 
L[X|Y,Z]= LXIY]I+LX|Z]. (8.1) 


证 明 8-1 形象 地 解释 了 这 个 定理 为 何 成 立 ， 下 面 在 数学 上 给 予 证 明 . 
我 们 需要 证 明 误 差 


X-(LXIY]I+LIX|Z)) 
与 YZ 都 互相 正 交 .首先 注意 到 这 个 误差 可 以 写成 以 下 的 形式 : 
(X-LIXIY)-LX|Z]. 
根据 LLX 1 了 ] 的 投影 性 质 ， 括 号 中 的 式 子 与 了 正 交 . 第 二 项 LLX|2Z] 是 Z 中 元 素 的 线 
性 组 合 . 因为 Z 与 了 正 交 ， 所 以 第 二 项 也 垂直 于 了 .由 此 整个 误差 与 了 正 交 . 同 理 可 
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证 ,误差 与 Z 正 交 . 和 * 


7 有 
7 

站 
| 


{BY+DZ)} 


图 8-1 在 加 性 正 交 化 观测 中 ，LLSE 很 容易 更 新 


X-(LXIYI+LIX|Z)) 
定理 8.1 很 容易 推出 如 下 结论 . 
定理 8.2 LLSE 更 新 一 一 一 般 情况 下 的 加 性 观测 


设 导 、 了 了、 ZZ 均值 为 0， 则 


LIXIY,Z]=LX|Y]+LX|IZ-LZIY]. (8.2) 


证 明 在 新 的 观测 量 当 中 , 与 了 垂直 的 部 分 是 Z=Z-L[Z18Y] , 它 正 好 也 包含 了 
需要 更 新 的 信息 . 
下 面 来 说 明 为 何 该 结论 成 立 . 首先 , 任何 了 和 Z 的 线性 组 合 都 可 以 表示 为 了 与 Z 
的 线性 组 合 . 例如 ， 如 果 ZL[Z|1Y]=CY ， 则 
AY+BZ=AY+B(Z -CY)+BCY =(A+BCO)Y+BZ. 
因此 ， 由 关于 了 和 ZZ 的 线性 方程 组 成 的 集合 与 关于 了 和 2Z 的 相同 ， 所 以 
L[IX|Y,Z2]=LX|Y,Z2]. 


由 定理 8.1 以 及 了 和 相互 正 交 可 证 式 (8.2 ). 


8.2 卡尔 曼 涯 波 回 的 推导 


下 面 来 推导 定理 7.11 中 用 到 的 卡尔 曼 滤 波 咒 方程 . 为 便于 本 节 说 明 , 将 其 重 写 如 下 : 


X(n)= 48Y(0z-D+ 天 [7(OOD-C4Y-D] (8.3 ) 
K, =S CTCSC'+2 (8.4) 
S, = 42 1A'+>, (8.5 ) 
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2 =(1- 开 CC)S， ( 8.6) 
以 及 
S, =cov(X(n)— AX(n-1)), ¥,=cov(X(n) -Xn)). (8.7) 


在 计算 中 ， 我 们 会 反复 用 到 下 面 这 一 性 质 : 
cov(BV,DW)= Beov(V,W)D,, 
以 及 ， 如 果 天 和 球 互 相 正 交 ， 则 
cov(V +W)=cov(V)+cov(W). 
下 面 的 推导 有 点 繁琐 ,但 是 思路 简单 明确 . 


设 


Y" =(Y(0),…,Y(n)), 
由 式 (7.13 ) 可 得 
LIX IY™]=LAXn-D+V(n-DIY"]= AX(n-1). 
由 式 (7.14 ) 可 以 导出 
LIYO) IY™]= LCXO)+WO) Y= CLXO) Y= CAF(n-1). 


此 ， 
Y(m— LY) | Y=Y(n) -CAX(n-1). 
由 定理 8.2 可 得 
R= XY"]= XY™ +IX) Yn) -LY IY"™"]] 
= AX(n—1)+K,[Y(n) -CAX(n-)]. 
从 推导 中 可 以 看 到 ， 式 ( 8.3 ) 是 定理 8.2 中 对 LLSE 数据 更 新 公式 的 直接 推论 . 
对 于 增益 Kk, 的 推导 则 有 点 复杂 . 设 
Ym) =Y() -LY IY"™]=Y(0) -CAX(n -1), 


现在 看 到 


K, =cov(X(n),Y(n)) cov(Y(n), 
其 中 ， 由 于 了 (n) 与 7 相互 垂直 ， 
cov(X(n), Y(n)) =cov(X(n) -LX(n)| YY), Y(n)). 
现在 ,根据 式 ( 8.7 ) 可 得 
cov(X(n)— LX(n) 1Y""], Yn)) 
=cov(X(n)— AX(n-1),Y(n) -CAX(n-1)) 
=cov(X(n)— AX(n—l),CX(n) +Wn) -CAX(n -1)) 
=S5C.. 


下 面 计算 cov(Y(n)) ， 
cov(Y(n)) = cov(CX(n) +W(n)— CLIX) IY )) = CSC'+ Zw. 
由 此 得 到 ， 
K,=S,CICS,C'+E,]. 
为 了 证 明 式 ( 8.5 )， 注 意 到 
S, =cov(X(n)— LX(n) 1Y")) 
=cov(AX(n—D+V(n-l)- AY(n-1)) 
= 42 ,A'+5,. 
最 后 推导 式 〈8.6 )， 观 察 到 
Xn) -LX IY]= Xn) -AX(n-l)—K,[Y(n) -CAX(n-l)] 
=X(n) -AX(n-1)- KICX(n)+W(n) -CAX(n-)] 
=[7—K,C]X(m) -AX(n-D]-K,W(n), 


所 以 ， 由 ,=cov(X(n) 一 了 (n)) 可 得 
,=[7—K,C]S, LI- KC + KK 
=S, —2K,CS, + K,[CS,C'+E, ]K, 
=S, —2K,CS, + K,[CS,C’ + 2, [CSC' + TICS (由 式 (8.4) 得 到 ) 


8.3 卡尔 受 滤 波 器 的 特性 


本 节 的 目标 是 解释 并 证 明定 理 8.3. 我 们 首先 给 出 定理 的 内 容 ， 然 后 给 出 可 观测 
和 可 达 这 两 个 概念 的 定义 . 
定理 8.3 ”卡尔 曼 滤波 器 的 特性 


(a) 若 (4,O) 是 可 观测 的 ， 则 允 , 有 界 ， 若 同时 满足 了 =0， 则 


2, THK,—>K, (8.8) 


其 中 区 是 有 限 维 的 算 阵 . 
(b) 如 果 (422) 在 满足 上 述 条 件 的 同时 还 满足 可 达到 性 ， 则 可 采用 
K, = KK 使 得 误差 的 协 方差 收敛 于 了 


我 们 在 后 续 小 广 中 将 陆续 解释 这 些 性 质 . 现在 先 给 出 一 些 说 明 . 
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口 在 有 些 系统 中 ， 误 差 会 无 限 地 增 大 . 例如， 如 果 没 有 任何 观测 值 (如 C=0) 
并 且 系统 不 稳定 (如 X(n) = 2X(n-1)+Vln) )， 则 ,会 趋 于 无 穷 大 .不 过 ，(a) 中 
“在 观测 量 足 够 丰富 的 情况 下 ”的 条 件 已 经 保证 了 无 穷 大 的 情况 不 会 出 现 . 
一 点 会 在 后 面 详细 讨论 . 

口 定理 的 (b) 部 分 指出 在 一 些 情况 下 , 即使 在 滤波 器 中 采用 一 个 固定 增益 天 , 误差 
也 不 会 在 渐进 过 程 中 变 大 . 这 一 点 非常 有 用 , 因为 不 需要 在 每 一 步 都 计算 一 个 

新 的 增益 . 


8.3.1 可 观测 性 


这 


如 何 知道 观测 值 能 否 在 追踪 定位 时 将 误差 的 协 方差 控制 在 一 个 范围 内 ? 在 给 出 
结论 以 前 ， 我 们 先 对 观测 值 的 好 坏 给 出 准确 的 定义 . 
定义 8.4 可 观测 性 


如 果 算 阵 
C 
CA 
ee 


的 零 空间 为 {0}， 则 (4, CO) 是 可 观测 的 . 这 里 ，d 是 X(n) 的 维 数 ， 一 个 适 阵 MM 
的 零 空间 为 {0} ， 意 味 着 唯一 能 使 Mv =0 的 向 量 v 就 是 替 向 量 . 0 
下 面 是 一 个 重要 的 结论 . 

引 理 8.5 ”可 观测 性 等 价 于 有 界 的 误差 方差 


(a) 如 果 系 统 是 可 观测 的 ， 则 ,有 界 . 
(b) 如 果 同 时 满足 了 =0 ， 则 了 收敛 于 某 个 有 限 的 值 王 . 
证 明 
(a) 可 观测 性 意味 着 在 没有 噪声 的 情况 下 ， 观 测 值 (Y(0)…,Y(4 一 了)) 只 对 应 一 个 
X(0). 这 时 ， 


X(n)= AX(n-1),Y(n)= CX(n). 
所 以 ， 

X(1)= AX(0), ¥2) = A XO0),:…, Xd -1)= A XO). 
因此 ， 
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7(0) = CX(0), 7(D = CAX(0),……, Y(d—1) = CA X(0). 


由 此 可 得 ， 
7(0) C 
70 lg o pe 
Y(d-D)| |C4A" 
如 果 有 2 种 初始 状态 , 分 别 记 为 用 0) 和 (0), 都 具有 相同 的 输出 Y(0)…,Y(4 -D . 则 
7(0) C C 
Oa py 
Y(d4-1)| | C4 CA”! 
所 以 
C 


“x0)- x0) =0. 


i 


根据 可 观测 性 的 定义 ， 得 出 (0) 一 (0) = 0. 

因此 , 如 果 我 们 根据 q+1l 个 输出 能 够 唯一 地 确定 出 初始 状态 R0), 那么 (4,O) 是 可 
观测 的 . 同时 因为 没有 噪声 ， 根 据 这 个 初 值 就 可 以 准确 地 知道 (1), 邓 (2)… 的 值 . 
此 ， 当 (4,O) 可 观测 时 ， 可 以 根据 输出 的 值 准确 无 误 地 得 到 Xn) 的 值 . 

但 是 事实 上 ， 我 们 的 系统 总 是 有 噪声 的 . 如 果 (4,QO) 可 观测 ， 就 可 以 根据 
了 Y(0),…,Y(4 -D 估计 XK0) 的 值 ， 不 过 这 里 得 到 的 估 值 并 不 完全 准确 ， 而 是 带 有 一 个 关于 
噪声 的 线性 函数 ， 即 关于 人 (0) ,FE -DTD, 丈 (0)…; 丈 (d)} 的 线性 函数 . 于 是 ， 也 可 以 根 
据 7(0),…,Y(d-1) 估计 Xl(q-1) 的 估 值 ， 这 个 值 也 带 有 一 个 关于 
入 (0) ,FE 一 ]), 历 (0),…, 歼 (q)} 的 线性 函数 . 同样 道理 ， 可 以 从 Y(n 一 9)…,Y(n) 得 到 
一 个 关于 X(n) 的 估计 ， 它 带 有 关于 人 秒 (n)…, Vnt+qd 一 ]),V(n 一 9)…,WV(n)} 的 线性 函数 . 

上 述 论证 也 表明 X(n) 与 闻 (n) 之 间 的 误差 只 由 有 限 的 误差 值 决定 ， 所 以 ,是 有 界 的 . 

(b) 如 果 =0 ， 即 知道 XC0)， 则 能 证 明 z, - 是非 负 和 矩阵 .因此 ,总 是 递增 
的 . 有 界 旦 递增 说 明 5, 最 终 收 敛 . 同 理 可 知 ，K, 也 是 收敛 的 . 


8.3.2 可 达 性 
假设 2, = 00' .如 果 和 矩阵 


[Q, 40,…, 4"'0] 
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满 秩 , 则 称 (4,0) 是 可 达 的 . 为 了 让 大 家 更 深刻 地 认识 到 这 个 结论 的 意义 , 我 们 将 已 有 
的 等 式 写 作 

X(n)= AX(n-1)+0n,, 
其 中 cov(7,) = 工 ， 也 就 是 说 ，7 中 的 元 素 彼 此 正 交 .可 以 设 w 中 的 元 素 服从 N(0,1) 分 
布 而 且 相 互 独立 . 如 果 (4,0) 是 可 达 的 , 则 对 于 任意 的 xe R” ,都 存在 一 个 序列 10，77。 
使 得 如 果 X(0) = 0， 则 X(q) =x. 事实 上 ， 


Na 
X(0) = 40m 4 -O40 4"0) "|. 
Mo 
由 于 敌阵 是 满 秩 的 ， 它 的 列 空间 为 %" .也 就 是 说 %% 中 的 任意 向 量 都 可 以 用 这 个 矩阵 
中 列 向 量 的 线性 组 合 来 表示 . 
定理 (b) 部 分 的 证 明太 过 复杂 ， 本 书 从 略 . 


8.4 扩展 卡尔 曼 滤 波 器 


卡尔 曼 滤波 吉 常 被 用 于 非 线 性 系统 . 主要 思路 是 ， 如 果 系 统 很 快 进入 了 一 个 几乎 
线性 的 状态 , 那么 可 以 在 其 局 部 使 用 卡尔 曼 滤波 器 并 根据 状态 估 值 的 变化 调整 4 和 C 
和 矩阵. 

这 里 的 系统 模型 如 下 : 
X(n+l)=f(X(n)) +V(n) 


Yln+l)=ge(X(n+1))+W(n+1). 
扩展 卡尔 曼 滤 波 器 为 
Xn+D)= JCYOD)+K[I7O+D-SsCACCCD)] 
K,=S,C" [CC +Zz 
S, =42 4 +2 
过 1=[ 芝 一 类,C，]9，， 


其 中 
0 人 0 
[4,];=—— (Xn)), [Cl;=—— 2,(X(n)). 
Ox Ox > 
这 里 的 思想 就 是 在 系统 状态 的 估计 值 附近 用 线性 来 近似 ,然后 应 用 普通 的 卡尔 曼 滤 波 器 . 


我 们 已 经 进入 了 启发 式 方法 的 领域 .在 这 种 情况 下 ,难以 对 于 滤波 器 的 性 质 作出 
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预测 .实验 结果 说 明 ， 当 系统 非 线性 很 弱 的 时 候 ， 这 种 方法 的 效果 良好 . 但 是 在 其 他 
情况 下 可 能 会 出 现 极 大 的 误差 . 


示例 


1. 追踪 定位 车 辆 

这 个 例子 来 自 于 “Eric Feron, Notes for AE6531, Georgia Tech” 教 案 . 例子 研究 的 
是 一 个 追踪 定位 车 辆 的 问题 . 假设 有 一 辆 小 车 在 平面 内 移动 ， 我 们 通过 测量 小 车 到 9 
个 平面 上 的 点 p, e R? 的 距离 对 其 进行 定位 (测量 会 有 误差 ). 设 p(n)e R? 是 小 车 在 n 
时 刻 的 位 置 ， 记 wu(n)e RR? 为 它 的 速度 . 

假设 速度 的 变化 主要 服从 于 一 个 已 知 的 规律 ， 但 存在 随机 的 扰动 . 具体 来 说 ,我 
们 假设 


p(n+1)= p(n)+0.lu(n), (8.9 ) 
u(n+1)= bb oa + w(n), (8.10) 


其 中 w(n) 为 独立 同 分 布 的 NO, 站 变量 . 测量 值 为 
其 lowm- Pil+ wn),i=1,2,.,9. 
其 中 v(n) 为 独立 同 分 布 的 N(0,0.3”) 变量 
图 8-2 给 出 了 扩展 卡尔 曼 滤 波 需 的 结 # 果 示意 图 其 中 XOD) = (p(n),u(n)) 的 初始 值 
为 加 OO)=0，Zu = 工 . 


卫 2 


We 


图 8-2 扩展 卡尔 曼 滤波 器 用 于 式 ( 8.9 ) ~ ( 8.10 ) 描述 的 系统 ( 另 见 彩 插 
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2. 观测 化 学 反应 

这 个 例子 讲述 了 如 何 通过 气压 的 测量 值 来 估计 化 学 反应 进行 的 状态 . 这 个 例子 来 
自 James B. Rawlings 和 Fernando V Lima、U. Wisconsin、Madison. 反应 中 有 A、B、 
C 三 种 物质 ， 它 们 之 间 化 学 反应 的 模型 如 网 8-3 所 示 ， 其 中 无 是 动力 学 常数 . 


后 
ASB+C 


大 一 | 


Lo 
2B 二 C 


大 一 2 


图 8-3 ”化 学 反应 
设 C,、C;、Ci 分 别 表 示 三 种 物质 的 浓度 . 系统 模型 为 : 


d _2 KC —k_ CsCe 
kCs —k_,Ce 


以 及 
FeRTC ,+Cy PC) 
如 图 8-4 上 面 小 图 所 示 ， 这 个 滤波 器 并 不 能 正确 追踪 出 浓度 数值 . 事实 上 ， 有 一 
些 浓 度 的 估计 值 其 至 是 负 的 ! 


1 1 1 1 1 上 ] 
100 20 40 60 80 100 120 140 
时 间 


图 8-4 ”上方 的 两 幅 小 图 表明 扩展 卡尔 曼 滤 波 器 并 没有 正确 地 追踪 出 浓度 . 下 方 的 
两 幅 小 图 表明 在 修改 了 方程 以 后 ， 算 法 收敛 到 正确 的 答案 ( 男 见 彩 插 ) 
下 方 的 小 图 则 说 明 , 在 修改 了 方程 并 将 负 值 替换 为 0 以 后 ， 得 到 的 浓度 值 变 得 收 
敛 了. 


14 EECS 应 用 概率 论 


举 这 个 例子 是 为 了 说 明 , 扩展 卡尔 曼 滤 波 器 并 不 总 能 保证 收敛 , 但 有 时 简单 的 修 
改 就 能 使 滤波 器 收敛 . 


8.5 小结 


口 LLSE 估 值 更 新 
口 卡尔 曼 滤波 需 的 推导 
口 可 观测 性 与 可 达 性 


口 扩展 卡尔 曼 滤 波 器 
重要 方程 与 公式 
LLSE 估 值 更 新 ( 在 均值 为 0 的 情况 下 ) 。 二 ZIXIY,Z]=LIXIY]J+LIXIZ-LY12Z]] ”定理 82 
可 观测 性 全 误差 的 方差 有 界 引 理 8.5 
可 观测 性 与 可 达 性 渐进 的 滤波 器 就 足够 好 定理 7.11 
扩展 卡尔 曼 滤波 器 方程 的 线性 化 8.4 节 


8.6 参考 资料 


Goodwin 和 Sin 的 Adaptive Filtering Prediction and Control 一 书 综述 了 滤波 器 和 控 
制 理论 的 相关 应 用 . Kumar 和 Varaiya 所 著 的 教科 书 Stochastic Systems: Estimation, 
ldentification and Adaptive Control 全 面 地 展示 了 控制 理论 、 滤 波 器 和 自 适应 控制 .该 
教材 难度 适中 ， 可 以 通过 网 络 资源 获取 . 


应 用 : 估计 ， 假 设 检验 ， 语 音 识 别 
主题 : 隐 马 尔 可 夫 链 ， 维 特 比 解码 ， 期 望 最 大 化 算法 


3t 旦 
月 未 


语音 识 另 


[a 


图 9-1 你 能 听见 我 吗 


1 可 以 被 规范 为 这 样 一 个 问题 : 猜测 一 系列 声音 所 对 应 的 单词 . 人 类 大 脑 对 


此 十 分 擅长 , 即便 同一 个 单词 可 能 因为 口音 或 声音 特点 不 同 而 对 应 不 同 的 发 音 , 大 脑 也 


总 能 辨认 . 不仅 如 此 ， 

如 今 计算 机 在 语 
汽车 (GPS 、 音 乐 和 气温 探 人 
音 识别 算法 和 其 他 相关 应 用 的 主要 思想 . 


于 背景 总 是 带 有 噪声 ， 所 以 听 者 听 到 的 总 是 衰 损 版 的 语音 . 
| 方面 做 得 越 来 越 好 . 语音 控制 系统 如 今 在 智能 手机 ( Siri )、 
制 )、 电 话 呼叫 中 心 和 录音 系统 中 都 很 常见 . 本 章 会 介绍 语 


我 们 首先 建立 一 个 系统 模型 ， 包 含 一 个 待 检测 的 随机 序列 〈 比如 单词 )， 及 其 与 
观测 到 的 信号 ( 比如 语音 ) 之 间 的 关联 . 主要 的 模型 叫 作 隐 马尔 可 夫 链 . 主要 思路 是 ， 


连续 的 音 


节 组 成 一 个 马尔 可 夫 链 ， 
在 信 系 统 中 被 用 于 解码 


目 每 一 个 单词 随机 映射 到 一 些 音节 上 .这 一 模型 也 


下 面 来 探讨 一 些 有 关 学 习 的 基本 概念 . 


9.1 


,“ 学 习 ” 指 的 是 从 关联 的 事物 中 寻找 联系 的 过 御 


I 


mm 
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举 一 个 简单 的 例子 ， 考 虑 第 5 章 问 题 5 中 的 二 元 对 称 信道 . 输入 有 ,是 服从 BCD) 
的 独立 同 分 布 随机 变量 . 对 给 定 的 输入 值 %,(n 二 0 ), 输出 值 克 等 于 输入 马 的 概率 为 
1-e. 在 这 个 例子 中 , 输入 和 输出 间 有 一 个 由 = 决定 的 概率 性 关联 . 学 习 在 这 里 意味 着 
估计 s 的 值 . 
学 习 有 两 种 基本 情况 . 在 监督 学 习 中 ,观测 输入 {Fn =0,…, M 和 输出 {Zm=0，…， 
人 .可 以 将 这 一 步骤 看 作 系统 的 训练 阶段 . 因此 , 先 用 一 系列 已 知 的 输入 值 来 观测 信道 . 一 
且 “ 学 习 ” 了 信道 , 也 就 是 估计 出 了 s 的 值 ， 就 可 以 着 手 设计 最 佳 的 接收 机 并 将 其 用 于 未 
知 的 输入 . 在 无 监督 学 习 中 ， 我 们 只 观测 和 输出. 这 种 学 习 方 式 的 优点 在 于 ， 学 习 过 程 并 
影响 系统 运作 . 因此， 训练 阶段 并 不 会 浪费 时 间 . 而 且 , 如 果 s 的 值 变 化 不 快 ， 系统 还 
可 以 自动 调整 佑 计 值 ， 无 需 在 新 的 训练 阶段 重新 学 习 它 . 
不 难看 到 ， 在 选择 监督 学 习 和 无 监督 学 习 时 需要 有 所 权衡 .对 系统 进行 训练 需要 
花费 时 间 , 但 是 学 习 速 度 通常 比 无 监督 学 习 更 快 . 在 实际 中 ,我 们 总 是 根据 系统 的 特 
点 ， 如 系统 参数 改变 的 速率 等 ， 来 选择 最 适合 的 方法 . 


9.2 隐 马 尔 可 夫 链 


隐 马 尔 可 夫 链 是 一 个 带 有 状态 观测 模型 的 马尔 可 夫 链 . 一 个 马尔 可 夫 链 {Xn)， 

n 宇 0} 建 立 在 状态 空间 庆 上 ,并 有 自己 的 转移 矩阵 了 和 初始 分 布 ro， 而 状态 观测 模型 

间 明 ， 当 马尔 可 夫 链 处 于 状态 x 时， 我 们 观测 到 值 y 的 概率 为 (x, y), ye 了 下面 给 
出 正式 的 定义 . 


AX(n) 
Y(n) 


图 9-2 隐 马 尔 可 夫 链 
定义 9.1 隐 马 尔 可 夫 链 


隐 马 尔 可 夫 链 是 一 个 满足 Xln)EX= {1,…, N}, 且 Yn)E = {1,…,M} 
的 随机 序列 {(X(n), Y(n)), n 宇 0}， 且 对 于 所 有 n 宇 0 有 xEX ye 


PAXO) = Xo, 7(0) = yo0, “…, Xn) = Xn, Y(n) = yn) 
= Xo(X0) Oxo, yo) P(xo, X1) Oxi, yp1)X*** XP 1, Xn OXn, yn) (9.1) 


都 成 立 . 0 


第 9 章 语音 识别 一 A (M27 


在 语音 识别 应 用 中 ,成 是 语音 的 一 部 分 ， 也 就 是 句子 的 片段 ; 而 % 是 声音 . 语 
言 结 构 会 决定 建 模 所 用 的 马尔 可 夫 链 中 总之 间 的 关系 . 乱入, 之 间 的 关系 则 取决 于 
说 话 者 . 

现在 ， 识 别 问题 可 以 准确 表述 如 下 . 假设 观察 到 到 =(%o,…, 六 ) = 二 00,…， 
yj). 那么 哪个 X := (X60, ,如 ) 序 列 最 可 能 是 说 话 考 表达 的 内 容 ” 如 果 采 用 第 $ 章 的 
术语 ， 也 就 是 要 计算 


MAPIX'"|Y" =y1]. 
因此 ， 我 们 想 要 找到 序列 x"e 庆 ,使 得 
PLX = x Y=y"] 
最 大 
注意 到 


P(X" 二 xX", YY” 二 ]”) 
P(Y”=y") 


因此 ， 最 大 后 验 估计 是 使 分 子 最 大 化 的 x 的 值 . 由 式 〈9.1 ) 可 以 得 到 分 子 的 对 数 如 下 : 
log(zo (x0)O (x0, JoD))+ Yiog(P (Ki Xn OX pn) 


m= 


PX" =x"|7"=y"]= 


定义 
d(x0) = —log(xo(x0) Q(xo, yo))， 
dn(Xm-1, Xm) = —log(P(xXm1, Xm Om, pm))» 
那么 ， 最 大 后 验 估计 就 是 使 下 式 最 小 的 x 


d(x) + Yd, (CD (9.2 ) 


表达 式 (9.2 ) 可 以 看 作 图 9-3 中 的 路 径 长 度 . 于 是 ， 寻 找 MAP 实际 等 同 于 解决 
最 短路 径 问 题 . 最 短路 径 问 题 已 经 有 一 些 标准 的 解法 . 下 面 介绍 其 中 一 个 出 名 的 算法 : 
贝尔 最- 福特 算法 . 


X(0) X01) X(K-1) X(K) Xn) 

1 L a 1 

Wy . : 
AX/di(xy’) 所 人 dox) \> 过 

Rd) : 人 Ee : 
NS > x) A x Ne x Xx’ 

: -> #4 了 人 » 

YL U S N 也 


图 9-3 最 大 后 验 估计 等 价 于 最 短路 径 
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对 于 m=0,…,n 和 xEw, 定义 了 (XY) 为 从 Xlm)=x 到 列 X(n) 的 最 短路 径 长 度 . 并 
且 ， 对 于 所 有 xEZX, 令 V(x)=0. 


V(x) = min{d, (xX,X") + x"), xe ,m=0,…,n—l1. (9.3 
最 后 ， 令 
六 = min{ds (+h OO). (9.4) 


那么 , 就 是 式 (9.2 ) 的 最 小 值 . 

贝尔 曼 - 福 特 算法 的 运行 步 又 如 下 . 

口 步 又 1: 运用 式 (9.3 ) 递归 地 计算 大 =j1 2，…;,0 时 的 { 记 CO,xE 个. 在 
每 一 步 , 记录 每 个 节点 x 的 外 向 边 中 剩余 代价 为 大 oo 的 边 . 不 妨 设 该 边 从 x， 
=x 出 发 并 指向 zs = s(m, 六 ). 

口 步 又 2: 找到 使 式 (9.4 ) 最 小 的 值 xo. 

口 步 骤 3: 则 MAP 是 序列 


Xo, X1 = S(0, X0o), X2 = S(1, XI) ,Xn = s(n—1, Xn1). 


式 (9.3 ) 是 贝尔 曼 一 福特 方程 .该 方程 是 最 短路 径 问 题 中 动态 规划 方程 的 一 种 特 
殊 形式 . 


图 9-4” 理 查 德 . 贝尔 曼 ( 1920 一 1984 ) 


这 里 的 核心 思想 是 定义 从 图 中 每 个 节点 出 发 到 目的 地 的 最 短 剩余 路 径 , 并 写 出 这 
些 量 之 间 的 递归 方程 . 然后 ， 通 过 从 后 向 前 的 方式 求解 动态 规划 方程 就 能 找到 最 短 的 
前 向 路 径 . 采用 最 短路 径 算法 求 MAP 的 应 用 叫 作 维 特 比 算法 . 


图 9-5 安德鲁: 维特 比 (1934 一 ) 
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9.3 期 望 最 大 化 和 聚 类 


期 望 最 大 化 (Expectation Maximization，EM ) 是 一 类 估计 分 布 参数 的 算法 . 我 们 
首先 通过 一 个 简单 的 聚 类 问题 来 解释 这 些 算法 . 下 一 节 会 将 期 望 最 大 化 应 用 到 隐 马 尔 
可 夫 链 的 模型 中 . 

聚 类 问题 关注 如 何 将 样本 点 分 组 到 相似 值 的 集群 中 . 我 们 先 用 一 个 简单 例子 来 解 
释 这 个 问题 ， 然 后 探讨 期 望 最 大 化 算法 . 


9.3.1 一 个 简单 的 聚 类 问题 


假设 你 开设 了 一 门 概率 论 课 程 , 想 通 过 NN 个 学 生 的 考试 成 绩 {X(1), …, X(N)} 确 定 
哪些 学 生 是 A 等 生 ， 哪 些 是 B 等 生 . 为 研究 这 个 问题 ,假设 A 等 生 的 考试 成 绩 是 服 
从 Ma, 四 的 独立 同 分 布 随机 变量 ， 而 B 等 生 的 成 绩 则 是 服从 .Nb, 办 的 独立 同 分 布 
变量 , 其 中 4a>5b. 简单 起 见 , 假设 到 的 值 已 知 且 每 个 学 生 有 0.5 的 概率 是 A 等 生 . 但 
是 ,我 们 不 知道 参数 (a, 5).( 同样 的 方法 也 适用 于 方差 和 先 验 概率 都 为 未 知 的 情况 下 . ) 

可 以 采用 以 下 的 启发 式 方法 ( 见 图 9-6 ) 开始 时 ,猜测 (c, 5) 的 值 为 (a1, b1)， 如 果 
学 生 的 分 数 X(n) > (Ci+pi)/2， 将 其 归 为 4 等 生 ， 否 则 将 其 归 为 有 等 生 . 接 下 来 计算 4 
等 生 的 平均 分 a;， 以 及 其 他 学 生 的 平均 分 bp,， 现 在 ， 用 (a;, b;) 蔡 代 (a1, 0)， 重 复 上 述 
的 归 类 过 程 . 如 此 反复 ， 直 到 这 两 个 值 看 起 来 收 全 为止 这 种 启发 式 方法 叫 作 硬 期 望 
最 大 化 算法 (Hard EM ). 


| 
bi al 
.SB 仿 .4 ope O0080 OO— > 
| | 
| | 和 
b, 2 
S00 © © 00 OO— > 
> 
Db; a 


bs = bs 04 一 03 


图 9-6 用 硬 期 望 最 大 化 算法 解 聚 类 问题 . 初始 猜测 为 (cl, b1)， 然 后 得 
出 该 情况 下 最 大 后 验 估计 与 下 一 个 猜测 (c, 22)， 以 此 类 推 


另 一 个 略微 不 同 的 启发 式 方法 如 下 〈 见 图 9-7 )， 同样 以 猜测 值 (c, 51) 开 始 . 


和 
C.8 


图 9-7 用 软 期 望 最 大 化 算法 解 聚 类 问题 . 初始 猜测 为 (cl, 20). 然后 得 
出 该 情况 下 最 大 后 验 估计 和 下 一 个 猜测 (as, 22)， 以 此 类 推 


运用 贝 叶 斯 准则 ,计算 分 数 为 X(n) 的 学 生 n 是 4 等 生 的 概率 p(n). 然后 , 计算 下 
一 组 估计 值 


YXYODpD ， > XODOd-PCD) 
> pm  ”” > ud-poD) 


用 (cz b>) 蔡 代 (a1, 20) 后 ， 重 复 上 述 过 程 . 因此， 在 a; 的 计算 过 程 中 ,我 们 考虑 了 每 个 
学 生 分 数 并 权衡 了 该 生 是 A 等 生 的 概率 ，b, 的 计算 是 类 似 的 . 
这 种 启发 式 方法 叫 作 软 期 望 最 大 化 算法 ( Soft EM ). 


9.3.2 回首 再 探 


在 先前 的 例子 中 ， 我 们 尝试 依据 观测 值 X = (Xi,…, 如) 来 估计 一 些 参 数 0 = (a, 
中 . 令 Z= (Zi1,…, ZN 为 学 生 的 属性 向 量 . 车 学 生 n 是 A 等 生 , 则 2=4, 否则 =B. 

我 们 想 要 找到 使 f[x|9] 最 大 的 9 值 ， 以 求 得 MLE[9|X=x]. 注意 ,可 以 把 flx|9] 
表示 为 


42 


fxl0] = > JIxlz26P[zlg， 


其 中 求 和 是 对 总 共 2* 个 可 能 的 Z 值 取 和 . 因为 Z 的 个 数 太 多 ,这 一 步 的 计算 十 分 
ZL 


C.8 
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9-8 硬 EM 还 是 软 EM 


硬 期 望 最 大 化 算法 实际 上 是 将 z 的 和 替换 成 


fx|z' ,OP[z 10]. 


这 里 ，z 是 在 给 定 观 测 值 和 当前 对 9 的 猜测 值 下 最 可 能 的 Z 值 . 也 就 是 , 和 若 当 前 猜测 


是 Oi, 那么 


下 一 个 猜测 为 


z =MAP[IZ|X=x,0,]=argmax PLZ =z|X =x,0.]. 


Cn = ag ma flx | z ,0]Plz | 9] 


软 期 望 最 大 化 算法 则 采用 不 同 的 近似 . 首先 ， 它 用 


代替 


> log(C/Ixlz20D)PIz19] 


log(f[x|0]) =10g(2, flx|z,0]P[z10)). 


也 就 是 说 ， 它 用 对 数 的 期 望 代替 期 望 的 对 数 . 
然后 ， 再 将 上 式 转 换 成 


> log(J[xlz 9)P[zlx,@] 


新 的 猜测 04 则 是 使 上 式 最 大 的 0. 所 以 ,， 它 把 Z 的 分 布 替 代为 在 给 定 当 前 猜测 和 观 
测 情况 下 的 条 件 分 布 . 


尽管 这 是 一 种 启发 式 算法 ,但 令 人 惊讶 的 是 ， 它 似乎 可 以 解决 一 系列 的 问题 . 其 


效果 也 有 一 些 开 
人 会 提 及 它 了 . 


LE 论 依 据 ， 当然 ， 如 果 这 种 启发 式 算法 在 实际 应 用 中 不 起 作用 ， 就 没有 
我 们 可 以 证 明 , 算法 收敛 于 fx|9] 的 局 部 最 大 值 ， 这 不 是 什么 特别 好 


的 消息 , 因为 大 多 数 问题 都 不 是 凸 的 , 因此 有 许多 局 部 最 大 值 . 详 见 Roche 的 文章 “EM 


algorithm and variants: an informal tutorial”. 
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9.4 学 习 : 隐 马 尔 可 夫 链 


考虑 一 个 隐 马 尔 可 夫 链 模型 . 假设 (xz, P, 9) 是 待 估计 参数 9 的 函数 ， 将 其 记 作 (rw 
Po 2029. 我 们 和 希望 找到 一 个 0 值 ， 使 得 观察 到 的 序列 区 在 9 值 下 正好 是 最 可 能 出 现 的 
序列 . 
对 于 给 定 的 到 = 区 ，0 的 MLE 被 定义 为 
ME[O 玉 = 雪 = arg max P[7 = y" | O01. 


与 聚 类 例子 的 推导 类 似 ， 
PIY”=y"|0]= PY”=y"|X"”=x’,0JPLX"”=x"|0]. (9.5) 


9.4.1 硬 期 望 最 大 化 


硬 期 望 最 大 化 (HEM ) 算法 将 对 x 的 求 和 换 成 
P[Z" = y"|X" =x’,0]PLX" =x’|0]. 


同时 将 P[X” = x’ |0] 换 成 


PIX" = x: |Y",0,], 
其 中 ， 
xx = MAP[x” |Y",0,]. 
前 面 提 到 ，x? 的 值 可 以 通过 维特 比 算法 得 到 .并且 ， 
PLY” =y" |X" =x",0]= AXo(Xo)OQo (Xo, po) Qo Np) XX XN Og (NX,, »,)- 


9.4.2 训练 维特 比 算 法 


维特 比 算法 需要 知道 P 和 0O. 在 实际 应 用 中 ,0 取决 于 说 话 的 人 ,而 尸 可 能 取决 
于 当地 方言 ( 比如 维 利 人 比 伯克利 人 更 常用 “喜欢 ”一 词 ) 如 果 已 经 有 一 个 参数 化 
模型 ， 就 可 以 用 HEM 算法 . 

如 果 没 有 参数 化 模型 ,可 以 观测 x? 和 yr"， 并 采用 一 个 简单 的 监督 训练 方法 , 通过 
x" 和 yy 中 的 参数 出 现 频 率 估计 P 和 0 的 值 . 比 如， 可 以 在 阅 中 用 (co xD 等 于 (a, 5) 
的 次 数 除 以 x,,= a 的 次 数 来 估计 Pla, 已 的 值 . 2 的 值 也 能 用 同样 的 方法 估计 . 


9.5 人 小结 


口 隐 马 尔 可 夫 链 
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口 计算 M4P[ 习 到 的 维特 比 算法 
口 聚 类 和 期 望 最 大 化 
口 隐 马尔 可 夫 链 的 期 望 最 大 化 


重要 方程 与 公式 
隐 马 尔 可 夫 链 的 定义 Xln) = MCE&P[Y, XY,] 定义 9.1 


贝尔 曼 一 福特 方程 V(x) = minyfdC y+V, (7)} 式 (9.3) 
软 期 望 最 大 化 和 硬 期 望 最 大 化 算法 0 一 tz 一 x; 启发 式 方法 计算 MA4P[Ok] 9.3 节 


9.6 参考 资料 


Wainwright 和 Jordan 在 Graphical Models, Exponential Families, and Variational 
JInference 一 书 中 为 图 模型 进行 了 非常 棒 的 介绍 和 讲解 . 它 同时 涵盖 了 期 望 最 大 化 和 许 
多 其 他 有 用 的 技术 . 


9.7 练习 


1. 令 (%, 有 功 ) 为 隐 马 尔 可 夫 链 ， 亚 = (了 7，…, 了 7) 且 Y= 00,…, 包 )， 维特 比 算法 计 
算 了 以 下 哪 项 ? 
DMLE[Y'IY"] 
DD MLELY"|Y] 
DMAP[Y'IY"] 
DMAPLY"|Y"] 

2. 假设 马尔 可 夫 链 成 在 世 = {a, 8} 中 取 值 ，xo(a) = xo(5) = 0.5， 而 且 对 于 x#x 有 
P(x,x')= Qa, P(x, xX)= 1-a. 又 假设 闷 是 通过 二 元 对 称 信道 观测 而 得 , 其 错误 概率 为 s， 
如 图 9-9 所 示 . 应 用 维特 比 算法 并 评估 它 的 性 能 . 


人 7 
1-a 

\ 1-8 
SA 
al jx X 

/e NN 

(人 AD) 一 > 1 
ps 1 一 和 

/ 
1-& x =[0.5,0.5] 


图 9-9 一 个 简单 的 隐 马 尔 可 夫 链 
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3. 假设 一 个 班级 的 学 生成 绩 分 布 服从 一 个 混合 高 斯 分 布 . 其 中 ,服从 Mi， o1) 
分 布 的 概率 为 p， 服 从 NUe， 02 ) 分 布 的 概率 为 1-p. 所 有 的 参数 0= (yu, o1, 1, oz 站) 都 
是 未 知 的 . 

(a) 假设 从 混合 分 布 中 得 到 了 n 个 独立 同 分 布 的 样本 yy,，…, yy 求 fr1，…,y4|0). 

(b) 若 7~N04,o1)， 令 随机 变量 铸 为 0; 若 7~N(, os)， 则 令 其 为 1. 求 
MAPLXilY,, 0]. 

(ce) 应 用 硬 期 望 最 大 化 算法 来 近似 求解 MELE[b 孔 ，…， 功 .你 可 以 使 用 Matlab 依 
照 0=(10, 5, 30, 10, 0.4) 生 成 1000 个 数据 点 G4，…, yi000) ,然后 用 你 的 数据 来 估计 90. 你 
的 算法 有 效 吗 ? 


主题 : 随机 梯度 ， 匹 配 追 踪 ， 压 缩 感 知 ， 推 荐 系统 


7 


小 


10.1 在 线 线 性 回归 


本 节 解 释 随机 梯度 算法 . 许多 学 习 方 案 都 会 用 到 这 一 算法 . 
首先 回忆 一 下 ， 线 性 回归 的 目标 是 寻找 参数 a 和 4b， 使 以 下 的 误差 最 小 : 


K 
2 一 4 一 0 及) ， 


其 中 Co 区 是 观测 样本 ,它们 是 服从 同一 未 知 分 布 fi yx, 的 独立 随机 变量 
现在 假设 每 次 得 到 新 样本 就 更 新 参数 (a, b) , 而 不 是 在 等 到 个 样本 点 之 后 才 计算 
线性 回归 . 
我 们 要 找到 a 和 2， 使 下 式 最 小 
E((X -a-by))’ 
= E(X’)+a’ +b’E(Y’)—2aE(X)—-2bE(XY)+2abE(Y) 
=: h(a,b). 
种 想法 是 ,采用 梯度 算法 最 小 化 h(a, 5). 假设 在 算法 的 第 步 , 已 经 计算 了 (a()， 
2(D).， 此 时 ， 梯 度 算 法 用 与 梯度 相反 的 方向 更 新 (ao(D，p(D)， 从 而 使 得 Ka( 有 ,2( 月 ) 减 
小 . 算法 更 新 (ae( 虽 , pg( 昌 ) 如 下 : 
a(k+1)=a(k)— a -halk), bk)) 


p(k+1) =b(k)- a halk) 2) 


其 中 ，a 是 一 个 很 小 的 正 数 ， 用 以 控制 更 新 的 步 长 . 因此 ， 
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a(k+1)=a(k)-—a[2a(k) -2E(X)+2b(K)E(7)] 
b(K+1)=b(K) -a [22(E(Y’) —2E(XY)+ 2a(K)E(Y)|. 
然而 ， 我 们 不 知道 分 布 ， 也 无 法 计算 期 望 值 .于 是 用 新 的 样本 值 代替 期 望 值 ， 即 
aK+D=a( 人 -cx[2a( 吕 -2XK+D+22(D7E+D] 
PKE+D=P(D-c|220DPE+D-2X(E+DFKE+D+2a0DO7CE+D|. 


我 们 使 用 的 是 随机 梯度 算法 ， 而 不 是 梯度 算法 . 这 里 随机 梯度 算法 可 以 被 视 为 采用 了 
一 个 带 噪 声 的 梯度 来 进行 更 新 . 直觉 告诉 我 们 ， 如 果 步 长 很 小 ,真实 梯度 与 带 噪声 版 
本 之 间 的 误差 平均 下 来 相差 无 几 . 

图 10-1 的 左 图 画 出 了 该 算法 在 式 (7.4 ) 中 的 更 新 值 ， 其 中 x = 0.002，ECC = 1 ， 
E(Z =0.3. 在 该 例 中 ， 线 性 最 小 平方 估计 是 


1 
ZXY 四 =a+p7= I = 0.77Y. 


a 2 中 ww D(A 
ee PP i A ee po A 


ww wo 


-2 
0 200 400 600 800 k 1000 0 200 400 600 800 k 1000 


图 10-1 用 随机 梯度 算法 “学 习 ” 得 来 的 系数 ， 左 图 为 式 (7.4 )， 右 图 为 式 (7.5 ) 
从 图 中 可 以 看 出 ， 在 该 算法 下 ，(ax, bj) 趋 近 于 (0.77, 0). 

图 10-1 的 右 图 绘 出 式 (7.5 ) 的 系数 ,y= 0.05, a = 1, b=6. 可 以 看 到 (au bi) 趋 
近 于 (7, -1)， 正 好 是 线性 最 小 平方 估计 的 值 . 


10.2 随机 梯度 投影 理论 


现在 来 解释 在 在 线 回归 的 例子 中 阐述 过 的 随机 梯度 算法 理论 . 我 们 先 从 确定 性 梯 
度 投 影 算 法 开始 讨论 . 

考虑 一 个 定义 在 凸 集合 ( 碗 状 ) 上 的 平滑 凸 函数 . 最 小 化 该 函数 ( 寻找 碗 底 ) 的 
标准 算法 就 是 梯度 投影 算法 . 这 个 算法 类 似 于 沿 着 最 陡峭 的 斜坡 ,用 越 来 越 小 的 步子 
一 步 步 跳 下 山 . 投影 可 以 确保 算法 给 出 的 答案 总 在 可 接受 的 集合 上 ， 而 算法 的 步 长 随 
着 时 间 减 小 保证 了 不 会 跳 过 最 小 值 . 
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随机 梯度 投影 算法 与 梯度 投影 算法 类 似 , 区 别 在 于 随机 梯度 投影 算法 采用 带 噪声 
的 梯度 . 随 着 步 长 越 来 越 小 ,梯度 的 误差 平均 下 来 所 剩 无 几 ， 因 此 算法 最 终 收敛 到 函 
数 的 最 小 值 . 

下 面 先 来 复习 一 下 梯度 投影 算法 ， 然 后 讨论 随机 梯度 投影 算法 . 


ex 


图 10-2 ”一 个 非 凸 集 ( 左 ) 和 一 个 凸 集 ( 右 ) 


10.2.1 梯度 投影 
假设 要 求 可 导 凸 函数 fx) 在 R” 的 一 个 闭 凸 子 集 C 上 的 最 小 值 . 根据 定义 , C 是 串 


集合 意味 着 


Ox+(1-0)yedC,vx,yecC HOel(0,l). (10.1) 


即 C 包 含 了 任意 两 点 间 的 一 条 线段 ， 在 集合 边界 上 没有 洞 或 者 扭 结 . 
男 外 ， 回 顾 凸 函数 的 定义 : 如 果 
f(Ox+(1-0y) SOF + 0 fy), vx,ye CH Oe(0,)), (10.2) 


则 函数 , 太 :C 一 路 是 一 个 凸 函数 . 


图 10-3 一 个 非 凸 的 函数 ( 左 ) 和 一 个 是 函数 ( 右 ) 


该 问题 的 标准 的 解法 是 梯度 投影 算法 (GP ): 
Xn = [XV (x, )e (n 0). 


这 里 ， 
0 0 , 
VOD=[ /W/O)] 
x Oxy 
是 函数 及) 在 x 处 的 梯度 ,而 [y]c 代 表 集 合 C 中 最 接近 y 的 点 ,也 叫 作 y 在 C 上 的 投影 .党 
数 w > 0 是 算法 的 步 长 . 


举 一 个 简单 的 例子 , 令 ftx) = 6(x-0.2》， 且 xEC :=[0, 1]. 这 里 的 系数 6 只 是 为 
了 说 明 开 始 时 算法 需要 大 的 步 长, 并 且 需 要 通过 投影 保证 答案 的 合理 性 . 下 面 采 用 mw 
=1/n，xo=0. 由 此 ,算法 如 下 : 
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二 二 | = -oD le (10.3) 
n 
式 (10.3 ) 等 价 为 : 
yn x (x, 02) (104) 
n 
Xl = max {0, min {1, pu)}. (10.5 ) 


其 中 ，yo=xo. 
如 图 10-4 所 示 , 当 步 长 较 大 时 , 更 新 值 yw 可 能 落 在 集合 C 外 并 被 投影 回 这 个 集 
合 . 最 终 ， 更 新 值 x, 沙 在 集合 C 内 . 


Mir 


图 10-4 梯度 投影 算法 式 (10.4) ~ (10.5 ) ( 另 见 彩 插 ) 


有 许多 能 保证 算法 收敛 到 让) 在 C 上 唯一 最 小 值 点 的 充分 条 件 ， 下 面 就 是 一 例 . 
定理 10.1 梯度 投影 算法 的 收敛 性 


设 /为 凸 集合 C 上 可 导 的 廿 函数 ， 且 满足 


ft 在 C 上 有 唯一 的 最 小 值 点 x (10.6 ) 
[v(x 中 <KkK,vxelC (10.7) 
> oa, =o 且 >》a;<oo， (10.8 ) 
则 
当 1 一 oo 时 ，X 一 和 
证 明 


2 


证 明 的 思想 如 下 . 令 q, = 一 
no(a)， 使 得 n 宇 no(e) 时 ， 


， 并 固定 一 个 小 常量 e > 0. 可 以 证 明 存 在 某 


|。 -| 
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d <4d,-y,, 当 qd, 宇 ge 时 (10.9) 
d,, <2 当 4qd, <e 时 . (10.10 ) 


而 且 ， 在 式 〈10.9) 中 ,yy 机 =oo . 
从 式 ( 10.9 ) 可 以 看 到 , 存在 n= ni(e) 宇 no(e) 使 得 4,<e. 再 由 式 (10.9 ) 和 式 ( 10.10 ) 
可 知 , 对 所 有 nn 三 mi(e), 都 有 4d,<2e. 由 于 以 上 论证 对 任意 >0 均 成 立 , 得 到 x, 一 xx*. 
为 了 证 明 式 (10.9 ) 和 式 ( 10.10 )， 首 先 要 说 明 


d,, <qd,+o, (x -x) vf (x Rs Lg (10.11) 


式 (10.11 ) 可 由 下 面 的 步 又 得 到 : 


人 


i -7 [x, —Q,Vf (x, )]; 去 党 


i (10.12 ) 
5 x -ov (x) -x 
Sd,+to, (x -%) Vf (x 和 La (10.13 ) 


等 式 ( 10.12 ) 根据 凸 集合 上 投影 的 非 扩张 性 得 到 ， 即 
-se-l 
这 个 性 质 从 图 10-5 中 可 以 清晰 地 看 出 ， 并 且 不 难 证 明 . 


A 


d (es ye) Ed (x, y) 


图 10-5 ”在 凸 集合 上 的 投影 是 非 扩 张 的 


于 > co: <oo ， 所 以 w 一 0. 将 这 一 性 质 用 到 式 (10.13 ) 和 式 (10.7) 中 即 可 推 
出 式 (10.10 ). 
最 后 只 需要 证 明 式 (10.9 )， 如 图 10-6 所 示 ， 由 万) 的 凸 性 可 知 
(x —x) VI(x) < f(x) -f(x). ( 10.14) 
而 且 , 车 de， 则 存在 6(e) > 0, 使 得 fx )-fxj) 夺 -6(e)， 因 此 ， 只 要 qe， 就 有 
(x —x,) Vf/(%,) < -6(e). 
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本 
fC) -fC) 
lL Gx) Ve) 


图 10-6 不 等 式 (10.14 ) ( 另 见 彩 插 ) 
结合 上 式 与 式 ( 10.11 )， 


du <d, -0,6(e) + 


现在 , 令 

= 06(s) 70K (10.15 ) 
因为 wu 一 0， 所 以 当 x 关 ae 时 ， 必 然 存 在 m(e) 使 得 为 > 0， 而 且 , 由 式 (10.8 ) 可 知 
,7 = 现在 用 max{nole), na(e)} 替 换 mo(e)， 式 ( 10.9 ) 即 得 证 . < 


图 10-7 该 图 展示 了 让) 的 等 位 线 和 凸 集合 C， 以 及 开始 的 几 次 迭代 梯度 
投影 算法 用 红色 表示 ， 随 机 梯度 投影 算法 用 蓝 色 表示 ( 男 见 彩 插 ) 


10.2.2 随机 梯度 投影 算法 


在 很 多 情况 下 ， 无 法 直接 计算 函数 的 梯度 VAx,)， 不 过 通常 可 以 得 到 这 个 梯度 的 
随机 估计 值 YRxw)+77,， 其 路， 是 一 个 随机 变量 .如 果 有 一 个 很 小 的 m, ， 那 么 当 用 
Vfoen)+77, 蔡 代 Vfhx,) 时 ,梯度 投影 算法 仍 会 收敛 于 x*. 本 节 的 重点 就 是 证 明 这 一 点 . 
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随机 梯度 算法 如 下 : 

Xn = LX, — 8 Je ( 10.16) 
其 中 ， 

8g, = Vf/(X,) + +h, (10.17) 
是 真实 梯度 带 噪 声 的 估计 . 在 式 (10.17 ) 中 , z, 是 一 个 平均 值 为 0 的 随机 变量 ， 用 于 
对 估计 的 噪声 进行 建 模 ; b, 是 一 个 常量 ， 用 于 对 梯度 估计 的 偏差 进行 建 模 . 
举 一 个 简单 的 例子 , 设 fx)=6(x-0.2)， 且 xEC := [0, 1]， 并 将 常数 设置 为 mw = 
lm ， 刀 =0 以 及 xm=0， 这 时 候 ， 算 法 的 更 新 步骤 如 下 : 


Go-02+35) (10.18 ) 


Xx 


在 这 个 表达 式 中 ，z, 是 服从 U[-0.5, 0.5] 的 独立 同 分 布 随 机 变量 . 图 10-8 展示 了 该 算 
法 生成 的 值 . 可 以 看 到 ， 尽 管 收敛 速度 很 慢 , 但 这 一 方法 最 终 收 剑 到 了 函数 的 最 小 值 
点 x*=0.2. 


图 10-8 ”随机 梯度 投影 算法 式 (10.18 ) 


为 了 让 算法 (10.16 ) ~(10.17 ) 收敛 ， 噪 声 估计 值 z, 和 偏 置 b, 需要 很 小 .下面 
的 定理 给 出 了 具体 的 要 求 . 
定理 10.2 ”随机 梯度 投影 的 收敛 性 


假设 C 有 界 且 满足 


帮 ) 在 C 上 有 唯一 的 最 小 值 点 x*; (10.19 ) 
|yr(x 中 大 KE,vxeC; (10.20 ) 
ci >0, 7 0,=%, D0 <%. ( 10.21) 


除 此 之 外 ， 假 设 
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yw， 忆 | < co; (10.22 ) 
有 [zz |=0; (10.23 ) 
El(|sl )<4.n=0. (10.24 ) 
那么 ，xi 一 X* 的 概率 为 1. 
证 明 
该 证 明 本 质 上 和 梯度 投影 的 证 明 一 致 . 
不 等 式 ( 10.11 ) 变 成 
d qd,+o, (x —x, 下 [YA(xc)+a 1b, + 大 (10.25 ) 
相应 地 ， 式 (10.15 ) 中 的 y, 变 成 
T 1 可 
7,=0, [5(a)+(x -x, ) (z, +b, )| -0K (10.26 ) 


现在 ， 式 〈10.23 ) 意味 着 yb, := >》 ,auzn 是 著 "， 由 式 (10.24 ) 和 式 (10.21 ) 可 知 ， 
对 于 所 有 m， a <4<%. 由 款 收 敛 定 理 10.3 可 得 ，v 收敛 到 一 个 有 限 的 随机 
变量 . 将 其 与 式 (10.22 ) 相 结合 可 得 ” > ， av [z+b,] 一 0. 由 于 有 界 , 误 
差 的 估计 值 随 着 n 的 增 大 可 以 忽略 . 剩 下 的 证 明 步 又 与 梯度 投影 的 证 明 步 又 相同 . 


了 


x,—x | 


10.2.3 歉收 钦定 理 


在 13.8 节 ,， 我 们 会 讨论 蒜 的 理论 . 这 里 仅 讨论 证 明定 理 10.2 所 需要 的 一 些 概念 . 
令 fw, ym,n 三 0} 为 随机 变量 ， 且 对 于 所 有 n，x 的 期 望 值 E(x) 均 存在 .如果 
Bl 
则 序列 xw 被 称 为 关于 {x yw), m 宇 0} 的 闭 . 
定理 10.3” 扶 收敛 定理 


Xo Mm SE n | = VN 


如 果 蒜 如 使 得 对 于 所 有 的 于 有 Ex 站 入 B<oo， 那 么 它 以 概率 1 收敛 于 一 
个 有 限 的 随机 变量 . 


@ 见 下 一 小 节 . 
@ 回顾: 若 级 数 Www 收敛 ， 则 当 no 时 ， 级 数 的 尾 端 习 ，。w, 收敛 于 0， 
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证 明 详 见 定理 13.17. 
10.3 大 数据 


网 络 的 出 现 使 得 许多 领域 中 的 数据 收集 问题 不 再 复杂 . 例如 ， 现 在 我 们 能 很 容易 
地 找到 人 们 喜爱 的 书籍 、 电 影 、 餐 厅 ， 经 常 浏览 的 网 站 ,移动 习惯 ,医疗 记录 ， 以 及 
传感器 的 测量 值 . 这 些 数 据 在 人 们 进行 选择 的 时 候 往 往 能 起 到 很 好 的 辅助 效果 . 比如 ， 
推荐 人 们 可 能 喜爱 的 商品 ， 提 供 可 能 有 效 的 治疗 方法 ,引荐 可 能 想 与 之 交谈 的 人 , 调 
查 谁 在 和 谁 聊 天 ， 找 寻 有 效 的 管理 技巧 ,等 等 . 不 仅 如 此 ， 与 数据 收集 同步 发 展 的 存 
储 技术 、 数 据 库 和 云 计 算 等 科技 也 让 实时 处 理 这 些 数据 并 完成 目标 成 为 了 可 能 . 本 节 


讨论 这 个 方向 上 的 一 些 问 题 和 解决 这 些 问 题 的 算法 . 


图 10-9 网 络 提供 了 获得 大 量 数据 的 接口 ， 该 如 何 从 数据 中 提取 有 用 的 信息 呢 
10.3.1 相关 数据 


一 件 事情 的 结果 往往 取决 于 很 多 因素 , 但 是 哪些 因素 是 最 关键 的 呢 ?” 比 如 ,一 名 
学 生 在 大 学 的 成 功 通常 取决 于 高 中 成 绩 、 大 学 先 修 课 程 的 分 数 和 高 考分 数 . 如 何 找到 
能 准确 预测 其 成 功 的 因素 呢 ? 类 似 的 情形 还 有 预测 患 上 某 种 疾病 的 概率 ,预测 某 种 疗 
法 的 成 功率 ， 等 等 . 

确定 这 些 重要 因素 对 于 改进 结果 大 有 神 益 . 比如 ,如果 知道 一 名 学 生 在 大 学 成 功 
与 否 主要 由 其 高 中 时 期 的 读书 量 及 其 玩 电脑 游戏 的 时 间 所 决定 , 那么 就 可 以 提出 合适 
的 建议 ， 提 高 学 生 拥 有 成 功 大 学 学 习 经 历 的 机 会 . 

这 一 问题 可 以 规范 成 以 下 的 数学 问题 : 设 事件 的 结果 为 了 已 知 其 与 一 系列 因素 
有 关 ， 因 此 用 一 个 有 入 六 1 个 分 量 的 向 量 关 表示 这 些 因素 . 比如 , 若 了 是 大 学 四 年 结 
束 后 的 GPA, XX 的 第 一 个 分 量 了 可 能 指 的 是 高 中 的 GPA， 第 二 个 分 量 且 是 高 考 成 绩 ， 
六 是 学 生 扎 写 读书 报告 的 书籍 数目 ， 等 等 . 尽管 N > 1， 但 是 通常 其 中 只 有 很 少 的 义 
分 量 真正 对 结果 了 有 实质 性 影响 .不 过 在 这 个 问题 中 ， 我 们 不 预先 假定 已 知 这 些 分 量 . 

假设 我 们 想 在 和 的 6 个 分 量 的 基础 上 预测 了 7， 怎么 知道 需要 考虑 哪些 分 量 呢 ? 考 
虑 到 N= 1 2，… NM} 有 许多 6 个 元 素 的 子 集 ( 大约 有 NY/6! 个 )， 这 个 问题 其 实 难 度 
不 小 . 尤其 是 当 N 很 大 时 ,这 一 问题 的 多 种 组 合 令 它 很 棘手 . 为 取得 进展 ,我 们 将 这 
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一 问题 稍 作 改 变 ， 并 求助 于 启发 式 方法 ”. 
将 问题 转变 成 寻找 = (2i，…, bm 使 得 下 式 最 小 化 : 
J(b)=E((Y — 2b,X,)). 


其 中 , 的 代价 函数 不 能 大 于 一 定 的 规定 值 : 
C(&)=2, 


这 叫 作 LASSO ( Least Absolute Shrinkage and Selection Operator, 最 小 绝对 收缩 和 
选择 算 子 ) 问题 ， 亦 称 套 索 问 题 . 这 里 用 系数 的 代价 蔡 换 了 对 分 量 数量 的 限制 .不 难 
看 到 ,变换 后 的 问题 与 之 前 的 问题 很 类 似 . 并 且 对 系数 代价 的 限制 保证 了 问题 的 解 会 
有 很 多 b, 等 于 0. 这 也 很 直观 : 如 果 某 一 分 量 不 如 其 他 分 量 重要 ， 则 其 在 解 中 的 系数 
很 可 能 等 于 0. 

下 面 来 解释 这 个 问题 的 含义 . 为 了 简化 运算 ,假设 Y 和 六 的 期 望 值 为 零 ， 并且 

Y =),B,X,+2, 


b 


n 


其 中 为 MO, 办 变量 ， 而 系数 肠 为 独立 并 且 分 布 为 
广 O= eepf4 捉 


的 随机 变量 . 
在 这 种 情况 下 ， 
MAPIB|IX = Xx,Y = y]= arg max fax lb 


xX,y] 
= arg max Fs (5) fix[y|x] 


0-Fbw) ep|-1D 
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=arg mo — Db,x,) 十 /2, 


其 中 ww=24 史 .这 个 问题 的 形式 是 LASSO 问题 的 拉 格 朗 日 乘 子 规范 形式 ， 其 中 对 系 
数 代价 C(5) 的 限制 改 由 在 目标 函数 中 加 入 惩罚 项 LUC(O) 代 蔡 . 因此 ，LASSO 问题 等 同 
于 在 上 述 随机 条 件 假设 下 求 M4PLBIX, 的 问题 . 
现在 来 看 一 个 贪心 算法 . 这 个 算法 每 次 选择 一 个 分 量 ， 且 每 次 的 选择 都 尽量 地 最 
大 化 成 效 . 首先 假设 可 以 只 在 了 的 入 个 分 量 中 选择 一 个 分 量 六， 那么 
cov(Y,X,) 
var(X,) 


b, 


= arg max exp |- 


b, 


L[Y|X, |= XX, =:b, XY, 


@ 如 果 你 砸 不 开 一 个 坚果 ， 就 再 找 男 一 个 试 试 .( 工程 和 数学 的 区 别 ? ) 


第 10 章 语音 识别 一 所 (145 


cov(Y,X,) 
var(X,) 
= var(Y)—|cov(Y, X, )|x 


E((Y-AY x,]) ) = var(Y) 


b, 
可 以 将 其 理解 为 每 一 个 单位 的 系数 代价 C(b,) = |bsl 带 来 了 目标 (5,) 的 减 量 |cov(7, 
马 )|. 这 人 么 一 来 ， 每 次 选择 使 得 “每 单位 代价 奖励 ”lcov( 世 马 )| 最 大 的 分 量 就 显得 理 所 
当然 了 .不妨 设 这 一 分 量 为 页， 并 令 真 = 十 了 | 互 ]. 
第 二 步 ， 在 保持 多 不 变 的 情况 下 ， 寻 找 第 二 个 分 量 蕊 ， 好 1 此 时 ， 
E((Y -bX, -bX, )) 


=E((Y -bX) )-2b, cov(Y -bX,X,)+b? var(X,). 


该 表达 式 在 
_ cov(Y -bX,X,) 
var (X,) 


时 最 小 ， 且 其 最 小 值 等 于 
cov(Y -bX,X,) 
var(X,) 
与 第 一 步 选择 时 一 样 ,将 总 的 系数 代价 C(b1, 5b) 投资 在 b, 上 会 带 来 X51, 5,) 的 单位 目 
标 减 量 


E((Y-bX)) 


cov(Y -bX, X,). 
这 说 明 ， 第 二 步 要 选择 的 闷 应 该 是 与 Yb 各 有 最 大 协 方差 的 埃 . 
由 此 得 到 下 面 的 算法 , 叫 作 逐步 回归 算法 . 在 第 步 ,算法 找到 与 残余 误差 了 -六 
最 相关 的 分 量 乞 ， 其 中 立 是 当前 的 估计 .具体 来 说 ， 算 法 如 下 所 示 ， 
口 第 0 步 : 计 =E(Y) 且 5,6=. 
口 第 ft1 步 : 找到 ng 5, 使 得 E((Y-- 苏 )X,) 最 大 ， 
令 Sti= SU {n}, Yi = LY nESi], k= k+l. 
口 重复 上 述 步骤 ， 直 到 E((Y - 立 ) 门 入 < 

实际 问题 通常 会 包含 一 系列 的 结果 {Ym = 1,…, 办 以 及 相对 应 的 因素 = 
CCP 加 … ,加 四， 在 这 里 ， 每 一 个 m 对 应 一 个 样本 ， 比 如 说 一 个 学 生 在 大 学 成 功 的 
样本 .根据 这 些 样本 ， 可 以 通过 样本 平均 估计 真实 的 期 望 值 ， 因 此 ， 如 果 在 第 步 已 
经 计算 出 用 以 估计 
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Y" =bX"+...+b Xr”. 
的 系数 (51,…, bj)， 接 下 来 就 可 以 通过 
1 之 ; 
™ 二 也 0 
et 的 ) n 


估计 E((Y- 苏 )X,) .这 里 同样 可 以 用 线性 回归 近似 ZI n ESin]. 
虽然 可 能 有 数 百 万 名 学 生 的 数据 , 但 是 根据 大 数 定律 ， 用 于 估计 均值 和 协 方 差 的 
样本 数 M 不 一 定 要 非常 大 . 因此 , 用 几 千 个 样本 就 能 获得 比较 合理 的 估 值 . 这 里 也 可 
以 用 前 面 介 绍 过 的 样本 和 矩 来 计算 这 些 估计 的 置信 区 间 . 
言 号 处 理 中 有 一 个 类 似 的 算法 叫 作 匹配 追踪 ， 由 Mallat 和 Zhang 于 1993 年 

在 “Matching Pursuits with Time-Frequency Dictionaries” 一 文中 提出 . 该 问题 考 
虚 的 场景 是 寻找 一 个 信号 的 紧凑 表示 ( 如 图 像 或 语音 ).， 需要 将 信号 的 表示 考虑 
为 一 些 基 峭 数 的 线性 组 合 ， 而 匹配 追踪 算法 则 能 找 出 一 组 最 重要 的 基 消 数 . 

一 个 例子 

这 里 用 一 个 非常 简单 的 例子 来 说 明 每 一 个 步骤 . 假设 所 有 例子 中 随机 变量 的 期 望 


值 均 0. 我 们 有 3 个 样本 ， 相 应 的 协 方差 矩阵 为 
[4 3 2 


玉 一 IDD MP 


3 
,=| 
2 


DO 
一 下 


其 中 2Z'=(Y, 了 X,Y, XY)=(Y,X). 
首先 尝试 逐步 回归 法 . 因为 与 了 最 相关 的 分 量 为 页 ， 所 以 
Sd SR 
var(X.) 4 


=L[Y|X, | 


下 一 步 计算 E(X,(Y -这 )) 的 相关 性 . 
E(X,(Y-Y)=E(X,(Y-bX))=3-2b =1.5 
E(X,(Y-Y)=E(X,(Y-bX))=2-b =0.5. 

现在 算法 选择 五 为 下 一 个 分 量 . 


. | 2 
让 =LIY|X,X,]=[3 2] 三 
2 
可 以 计算 误差 的 方差 为 
5 


ED) = 
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10.3.2 压缩 感知 


通常 来 说 ， 看 起 来 复杂 的 事物 可 能 蕴藏 着 非常 简单 的 结构 . 比如 ， 图 10-10 中 所 
示 的 信号 s(D 就 是 3 个 正弦 函数 的 和 : 


s(t) = yp sin(2zxpt), 1 过 0. (10.27 ) 


1 1 1 1 | 
0 200 400 600 800 1000 


图 10-10 看 起 来 复杂 的 信号 实际 上 是 3 个 正弦 函数 的 和 


在 信号 处 理 中 有 一 个 经 典 结论 ， 叫 作 奈 奎 斯 特 采 样 定理 . 它 指出 ， 如 果 以 信号 最 
大 频率 的 2 倍速 率 采样 ， 即 采样 间隔 时 间 了 满足 在 /7 至 少 是 信号 最 大 频率 的 两 售 ， 
就 可 以 通过 采样 值 准 确 地 恢复 一 个 信号 . 根据 这 一 结论 ， 只 要 对 于 所 有 i= 1 2,3， 都 
有 7 <1/(2 办 ) ， 就 可 以 通过 获取 每 7 秒 的 值 来 重 构 信号 s(?). 但是， 对 于 ( 10.27 )， 
我 们 可 以 通过 6 个 参数 {4., ,i=1,2,3} 的 值 来 完全 描述 s(0.， 在 这 个 例子 中 ， 比 较 明 
显 的 一 点 是 我 们 不 需要 知道 很 多 时 刻 妇 的 样本 值 s(t 才能 重建 这 6 个 参数 以 及 1 二 0 时 
的 信号 s(0. 同时 , 如果 采样 的 时 间 如 为 随机 选取 的 ,那么 重 构 的 信号 应 当 是 唯一 的 . 同 
样 的 结论 在 使 用 不 同 的 基 函 数 时 也 成 立 ( 如 多 项 式 函 数 或 小 波 函 数 ). 

可 以 看 到 ， 如 果 一 个 信号 可 以 通过 基 函 数 ( 如 正弦 函数 ) 简单 地 表达 出 来 ， 那 么 
就 可 能 采用 少量 样本 完全 重 构 这 一 信号 . 知道 这 种 可 能 性 的 存在 似乎 并 没有 减 小 问题 
的 困难 . 可 是 ， 如 果 稍 微 变换 一 下 角度 ， 这 个 问题 其 实 是 可 以 解决 的 . 假设 有 下 面 一 
组 函数 : 


g(t)=sin(2zf,1),t 0,n=1,…,N. 
再 假设 s() 中 的 频率 {8,6,&) 只 在 频率 {,n= 1,…, 从 中 取 值 . 可 以 尝试 找到 一 个 向 
量 a={a,,n=1,…,N} 使 得 对 于 k= 1， A 


sh) = Dag, CU) 
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只 有 3 个 函数 的 时 候 ， 可 以 通过 选择 合适 的 函数 来 解决 这 一 问题 . 但 是 ,应 当 如 何 系 
统 化 地 做 这 件 事 呢 ? 
第 一 个 想法 是 将 问题 规范 成 下 面 的 问题 : 和 
最 小 化 l(a, * 0) 使 得 对 于 k=1, …,K， 有 s(t)= 3a,8,(t). 
即 用 最 少 的 基 函 数 线性 组 合 来 表示 s(D). 
遗憾 的 是 , 这 个 问题 和 前 一 节 的 问题 一 样 , 需要 考虑 太 多 非 零 系 数 a 的 选择 组 合 . 因 
此 这 一 方法 也 十 分 困难 . 不 过 ， 我 们 可 以 同样 将 这 个 问题 转化 为 一 个 类 似 的 问题 : 
最 小 化 Sa | 使 得 对 于 k= 1,…, 天 有 s(t,)= Va,g, lt) (10.28 ) 
最 小 化 系数 ww 的 绝对 值 之 和 是 对 最 小 化 非 堆 系数 个 数 的 一 种 放 缩 . (从 简单 的 例子 中 
可 以 看 出 ， 选 择 用 》 |a,| 而 不 是 》 |w,| 进行 近似 通常 会 导致 恢复 失败 . ) 在 这 种 情 
况 下 ， 当 天 很 大 的 时 候 ， 结 果 正 确 的 概率 很 大 . 
定理 10.4 ”基于 随机 样本 的 准确 恢复 [Candes & Romberg，2007] 


车 


01 


KCxBxlog(N), 

则 信号 s( 四 可 以 通过 求解 采用 KK 个 采样 值 的 式 (10.28 ) 以 很 高 的 概率 准确 恢 

复 ， 在 表达 式 中 ，C 是 很 小 的 常量 ，B 是 构成 s( 上 的 正弦 函数 个 数 ， 而 N 为 

正弦 函数 的 个 数 . 

注意 到 , 定理 10.4 是 一 个 概率 性 的 结果 . 实际 上 , 我 们 的 确 有 可 能 不 巧 地 遇 上 所 
有 采样 值 都 为 0 的 情况 ( 见 图 10-10 ) 在 这 种 情况 下 ,我 们 得 到 的 采样 点 无 法 被 用 来 
恢复 s()， 也 就 是 采样 点 无 法 用 于 完全 恢复 信号 ， 因 此， 定理 10.4 表明 这 种 情况 发 生 
的 概率 很 小 . 

在 我 们 的 例子 中 , B=3. 所 以 如 果 N100, 就 可 以 期 望 从 3log(100) = 14 个 样本 
中 准确 恢复 信号 s(). 

式 (10.28 ) 的 问题 与 下 述 线性 规划 问题 等 价 . 这 意味 着 我 们 能 高 效 地 解决 它 : 

最 小 化 >.b, 使 得 对 于 k=1,…,K, 有 s(t)= > os, 人) ， 


对 于 n=1,…, N， 有 -b,<a,<b,. (10.29 ) 
1. 数值 例 
假设 
s(t) =sin(27xt) + 2sin(2.4xt) +3sin(3.2xt), t e[0,1]. ( 10.30) 


这 里 可 以 看 到 s(0) 中 的 频率 是 内 =1 办 =1.2, 9 =1.6 ， 函数 集合 为 


从 


C.10 
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{g,(D) =sin(27zf,D), n=1,…,100}, 
其 中 f= m10. 
在 该 集合 中 ， 正 弦 函 数 的 频率 为 0.1, 0.2，…, 10. 所 以 ，s(0 中 的 频率 包含 在 集合 
中 ， 且 最 佳 恢复 为 


s(D) = 24,8,0), 


其 中 ao=1，ao=2，a6=3， 而 所 有 其 他 系数 为 0. 前 面 的 推导 告诉 我 们 ， 大 概 需 要 
14 个 样本 点 即 可 恢复 原 信 号 . 因此 ， 我 们 随机 选取 了 15 个 在 [0, 1] 间 均匀 分 布 的 采样 
时 刻 六 ， 然 后 运用 Matlab 求解 式 (10.29 )， 图 10-11 展示 了 我 们 的 结果 .代码 在 附录 
C.10 中 


6 


4 
2 1/ 
0 


< 


-6 


0 0.2 04 0.6 0.8 1 


图 10-11 通过 在 [0, 1] 间 均匀 选取 15 个 样本 点 ， 完 全 恢复 信号 (10.30 ). 
在 图 里 ， 原 始 信号 与 恢复 重建 的 信号 重合 


2. 另 一 个 例子 

图 10-12 摘自 Candes 和 Romberg 的 论文 “Sparsity and Incoherence in Compressive 
Sampling”， 展 示 了 男 一 个 例子 . 左边 的 原始 图 片 有 大 概 100 万 像素 ,但 是 ， 它 能 
25 000 个 名 为 小 波 的 函数 线性 组 合 而 成 . 所 以 , 压缩 感知 告诉 我 们 , 该 图 片 可 由 几 倍 于 
25 000 个 随机 采样 的 像素 点 完全 恢复 .结果 也 确实 如 此 ， 可 以 用 约 96 000 个 像素 点 重 
建 该 图 . 


10-12 有 10 像 素 点 的 原 图 ( 左 ) 和 由 96 000 个 随机 选取 的 像素 点 重 构 的 图 像 ( 右 ) 
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10.3.3 推荐 系统 


这 里 考虑 的 是 如 何 知道 用 户 喜 欢 什么 样 的 电影 .这 个 问题 的 一 种 规范 描述 如 下 : 
有 一 个 KxN 的 矩阵 7Y， 和 矩阵 的 元 素 Y(h, 四 代表 用 户 大 有 多 喜爱 电影 n.， 但 是 ， 我 们 通 
常 看 不 到 整个 矩阵 ， 只 能 通过 用 户 看 过 的 电影 以 及 他 们 对 电影 的 评价 来 获得 很 有 限 的 


几 个 样本 值 . 我 人 


憩 阵 填充 这 一 想法 源 于 矩阵 元 素 并 不 独立 . 比如 ,假设 甲 和 乙 看 过 同样 的 5 部 电 


] 要 考虑 的 问题 是 把 这 个 矩阵 补 全 . 


影 ， 给 出 的 评价 相当 . 这 时 候 ， 甲 又 看 了 一 部 电影 并 且 党 得 很 喜欢 . 那么 乙 也 很 有 可 
能 会 喜欢 这 部 电影 . 


为 了 规范 地 描述 矩阵 元 素 间 的 依赖 性 ， 我们 观察 到 ,虽然 有 成 和 干 上 万 部 电影 , 但 


彤 响 用 户 喜 爱 程度 的 因素 往往 只 有 几 个 .因此 可 以 合理 地 认为 ,矩阵 的 许多 列 是 一 


医 诺 


最 
些 公 共 向 量 的 组 合 ， 而 这 些 向 量 对 应 着 影响 用 户 排序 的 因素 . 所 以 ， 这 几 个 独立 向 量 


的 线性 组 合 构成 了 这 些 列 . 因此 , 矩阵 了 只 有 少量 线性 无 关 的 列 ， 即 了 为 一 个 低 秩 和 矩 


阵 ” 那么 , 我们 


能 否 根 据 观测 到 的 元 素来 恢复 一 个 低 秩 的 矩阵 7? 


首先 规范 化 这 一 问题 : 
最 小 化 rank(X)， 且 保证 (k,n)= M (k,n), V(k,n)eQ. 
这 里 ,{M(Kk,n), (k,n)e Q} 是 矩阵 已 知 元 素 的 集合 . 我 们 希望 找到 一 个 秩 最 低 的 矩阵 蕊 
与 已 知 的 观察 值 相 一 致 . 
如 前 所 述 ， 这 样 的 问题 比较 难 . 为 了 进行 简化 ， 我 们 用 核 范 数 || 风 :代替 秩 ， 


0; 为 矩阵 匀 的 特 和 和 


[X=%6， 
FE 值 ( 见 附录 B.6 )、 这 里 非 零 特征 值 的 个 数 由 矩阵 的 秩 决定 .因为 核 


范 数 是 和 矩阵 元 素 的 凸 函 数 ， 所 以 很 容易 求解 这 一 凸 优化 问题 . 值得 一 提 的 是 ， 在 压缩 
感知 问题 中 ， 通 过 改进 问题 求 得 的 解 往 往 接近 最 优 . 
定理 10.5 ”由 随机 元 素 完整 地 恢复 和 矩阵 [Candes & Recht，2009] 


若 观 察 至 


个 观测 点 ， 贝 


1 的 元 素 是 随机 均匀 选取 的 ， 且 至 少 有 
Crlog(m) 


| 问题 
最 小 化 [| 使 得 XX(k,n)=M (k,n), Vv(k,n)eQ 


Q9 矩阵 的 秩 是 矩 


阵 中 线性 无 关 列 的 数目 . 
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而 了 是 矩阵 了 的 秩 . 


这 一 结论 在 观测 点 个 数 远 小 于 KxN( 了 的 元 素 个 数 ) 的 情况 下 十 分 有 用 . 本章 后 
面 的 参考 资料 中 有 很 多 该 问题 的 拓展 和 有 关 数 值 求解 的 细节 问题 . 


10.4 小 结 


口 在 线 线性 回归 

口 凸 集合 和 函数 

口 梯度 投影 算法 

口 随机 梯度 投影 算法 

口 款 收 敛 定理 

口 大 数据 : 相关 数据 ， 压 缩 感 知 ， 推 荐 系统 

重要 方程 与 公式 : 

凸 集合 如 果 包 含 它 的 任意 弦 式 (10.1) 
凸 函 数 如 果 在 它 的 切线 以 上 式 (10.2) 
梯度 投影 的 收敛 如 果 有 唯一 的 最 小 值 点 和 有 界 的 梯度 定理 10.1 
随机 梯度 投影 的 收敛 如 果 界 限 不 定 且 噪 声 有 变化 定理 10.2 
著 收 敛 定理 在 ZL' 或 上 有 界 的 对 以 概率 1 收 全 定理 10.3 


10.5 参考 资料 


在 线 线 性 回归 算法 在 Strehl 和 Littman 的 文章 “Online linear regression and its 
application to model-based reinforcement learning” 中 有 详细 讨论 . Bertsekas 和 Tsitsiklis 
在 Distributed and Parallel Computation:Numerical Methods 中 清晰 讲解 了 分 布 式 优化 算 
法 . 它 解 释 了 梯度 投影 算法 和 分 布 式 实现 ， 是 一 本 很 棒 的 参考 书 . LASSO 算法 和 其 
他 许多 方法 及 其 应 用 在 Hastie 等 的 The Elements of Statistical Learning: Data Mining, 
Inference，and Prediction , 2nd Edition 中 有 详细 阐述 . 蔷 理 论 则 在 其 提出 者 Doob 的 书 
Stochastic Processes 中 有 明确 说 明 . 


10.6 练习 


1. 设 位 ,n 宇 1} 为 服从 U[0,1| 的 独立 同 分 布 随机 变量 ，{2,,n 宇 0.1) 为 服从 M0， 
1) 的 独立 同 分 布 随 机 变量 . 定义 蕊 =1{Y, 宇 a}+2,,a 为 常数 . 设计 一 个 算法 , 通过 观 
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测 点 (%, 又) 来 学 习 a 的 值 . 采用 以 下 的 模型 
X, = g(Y, —0), 
其 中 ， 
1 
2 1+exp{—Au} E1039 


且 4=10. 注意 ， 当 ww>0 时 ，g(w) 的 分 母 接近 1， 所 以 g(w) 守 1. 同 理 ， 当 w<0 时 ， 
分 母 很 大 ， 所 以 g(w) = 0， 因 此 ，g(w) = 1{fw=0} 函数 g() 叫 作 逻 辑 函 数 . 在 Matlab 
中 运用 随机 梯度 算法 来 估计 0. 


g(u) 


1 
-1 -0.5 0 05 1 


图 10-13 4=10 时 的 逻辑 函数 ( 10.31 ) 


2. 用 下 述 值 实现 逐步 回归 算法 


10 5 6 7 
5 6 5 2 

> ， = 
7 |16 511 5 
7 2 5 6 


其 中 ZI = (7, 写 ,X,Y )=(Y,X'). 
3. 用 下 式 的 信号 实现 压缩 感知 算法 
S(t)=3sin(2nt) +2sin(3nt) + 4sin(47?), te[0,1]. 
假设 在 [0，1] 上 均匀 独立 地 选择 采样 时 刻 如 ， 并 且 正 弱 函 数 的 频率 为 {0.1，0.2，…， 
3}. 为 完全 恢复 原 信 号 ， 至 少 需要 几 个 采样 点 ? 


第 [1 章 
路 线 规划 一 A 


应 用 : 在 不 确定 的 延 时 情况 下 选择 最 优 路 线 ; 控制 马尔 可 夫 链 
主题 : 随机 动态 规划 ， 马 尔 可 夫 决 策 问题 


背景 知识 : 第 1 章 


本 章 介绍 在 面 对 不 确定 因素 时 如 何 作出 决策 , 这 些 决 策 会 影响 每 一 步 的 代价 和 系 
统 的 状态 . 我 们 从 一 个 简单 的 例子 开始 ， 在 旅行 时 间 不 确定 的 情况 下 ， 选 择 一 条 最 优 
路 线 ; 然后 研究 一 个 一 般 模型 : 控制 马尔 可 夫 链 . 


图 11-1 公路 网 络 一 一 如 何 选 择 路 线 


11.1 系统 建 模 


给 定 一 个 有 向 连通 图 ， 其 中 包含 有 限 个 点 ， 且 图 中 的 每 一 条 边 (i, 站 都 对 应 一 个 旅 
行 时 间 7T(i, 站 ， 旅 行 时 间 之 间 相 互 独立 但 分 布 已 知 ， 路 线 的 起 点 是 s 节点 ,终点 是 qd 
节点 . 我 们 的 目标 是 选择 一 条 最 快捷 的 路 线 从 s 走 到 4， 下 面 会 考虑 几 种 解决 方法 . 
为 了 让 问题 更 加 具体 ， 我 们 来 考虑 图 11-2 所 示 的 简单 情况 . 


ee 
< 
da 


图 11-2 一 个 简单 图 


需要 选择 一 条 路 线 用 最 短 的 时 间 从 s 走 到 4d， 在 这 个 例子 中 ， 可 能 的 路 径 为 sd、 
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sad 和 sapd.， 假设 各 边 (i, 站 对 应 的 延 时 Ti, 让 如 下 : 
T(s,a)=, U[S,13], T(a,d) =10, T(a,b) =, U[2,10], 
T(b,d) =4,T(s,d)= 20. 


也 就 是 说 ,从 s 到 4a 的 延 时 均匀 分 布 在 [5, 13] 区 间 内 ,从 a 到 4 的 延 时 等 于 10, 等 等 . 延 
时 之 间 彼 此 独立 (这 是 一 个 理想 化 的 假设 ). 


11.2 方法 1: 提前 规划 


这 种 方法 不 进行 任何 观测 ， 只 是 在 出 发 前 事先 计划 旅行 路 线 . 此 时 认为 每 条 边 需 
要 的 时 长 为 其 平均 旅行 时 间 区 ITC 六) = c( 旋 ， 然 后 用 最 短路 径 算法 找 出 一 条 路 径 . 
如 图 11-3 左上 图 所 示 ， 在 我 们 的 例子 中 , 平均 延 时 为 c(s, a) =9、c(a, 四 = 10， 等 等 . 


a 9 a CO 
5 2 0 s 6 0 
A 

20 d 20 

a10 a10 
8 2 4N0 Ky 2 4 0 
2 4y0 40 
2020 dl 0 4 


图 11-3 平均 延 时 (左上 图 )， 以 及 贝尔 曼 - 福 特 算法 计算 最 小 期 望 时 间 的 步骤 ( 浅 色 ) 


设 Vi) 表 示 从 节点 i 到 目的 地 4 的 最 小 平均 时 间 . 贝尔 曼 - 福 特 算法 计算 这 些 时 间 
的 方法 如 下 . 算法 从 万 (4)=0 和 万 (站 = 开始 , 其 中 izd ， 设 信 (站 为 算法 先 代 计算 
n 步 后 从 i 到 4 的 最 小 平均 时 间 估 计 值 . 之 后 ， 按 照 下 式 计算 在 第 n+1 次 迭代 之 后 的 
VV (让 值 : 


V0)= min{c(i, )) +V,())},n0, (11.1) 


其 中 六 (i) 表示 只 经 过 至 多 n 条 边 时 从 i 到 4 的 最 小 期 望 时 间 . 如 果 经 过 至 多 nn 条 边 时 
没有 可 以 达到 目的 地 4 的 路 径 ， 则 地.@) 的 值 为 无 穷 大 .9.2 节 中 的 维特 比 算法 也 是 基 
于 该 算法 设计 的 . 

这 个 算法 的 正确 性 基于 : 随机 变量 之 和 的 期 望 等 于 它们 的 期 望 之 和 . 例如 ,在 至 
多 经 过 2 条 边 时 , 从 a 到 4 的 最 小 平均 旅行 时 间 为 态 (a,d) ， 相 应 的 旅行 时 间 为 
静 (a,d) . 对 于 从 s 到 4 的 平均 时 间 最 短 的 路 线 ， 如 果 只 考虑 至 多 经 过 3 条 边 的 路 线 ， 
有 两 种 可 能 : 选择 s4, 需要 时 间 Tls, 4); 先 选择 sa， 然后 选择 至 多 经 过 2 条 边 就 能 从 
a 到 4 的 最 快 路 径 , 需要 的 时 间 为 万 (a,qd) . 所 以 , 至 多 经 过 3 条 边 从 s 到 4 的 最 短期 
望 时 间 友 (5) 是 ET q))=c(s, q) 以 及 Tls, q)+ 到 (a,q) 均值 中 的 最 小 值 ， 
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V(s)= min{c(s,d), E(T(s,a) +W,(a,a))} 
=min{c(s,q),c(s,a)+V,(a,d)}. 
由 于 图 中 只 有 X 个 节点 , 任何 一 条 通 往 4 上 且 不 带 环 路 的 路 径 长 度 都 不 超过 N. 
此 , 玉 , 可 以 在 至 多 N 步 后 收敛 于 V. 极限 值 Vi) 表 示 的 是 从 i 到 4 的 最 短 平 均 时 间 . VV 
满足 下 面 的 不 动 点 等 式 : 
VO) = min{cG, D+V(D}, W, V(d)=0. (11.2) 


这 些 方程 就 叫 作 动态 规划 方程 . 式 (11.1 ) 是 求解 式 (11.2 ) 的 一 个 算法 . 
11.3 方法 2: 适应 性 算法 


现在 假设 到 达 节 点 i 时， 能 观测 到 从 节点 i 出 发 的 每 一 条 路 径 需 要 的 实际 时 间 ， 
不 过 仍然 看 不 到 更 远 的 边 所 对 应 的 时 间 . 这 种 情况 下 应 该 如 何 选择 路 线 呢 ? 如 果 每 条 
边 需 要 的 时 间 是 定 值 ， 那 么 这 和 方法 1 并 没有 什么 区 别 . 然而 ， 当 它 是 随机 变量 时 ， 
从 i 出 发 的 边 所 需要 的 实际 旅行 时 间 可 能 比 期 望 值 略 大 或 略 小 .显然 我 们 应 该 用 到 这 
些 信息 . 

下 面 给 出 一 个 计算 最 佳 路 径 的 系统 流程 . 设 VD) 是 从 节点 i 出 发 到 达 4 的 最 小 平 
均 时 间 ，ie {s,a,b,d} 可 以 看 到 V(b)= TCD, q)=4. 

现在 计算 Vl(a). 已 知 从 节点 a 出 发 所 有 边 的 延 时 , 定义 Wla) 为 从 a 到 4 的 最 小 期 
望 时 间 ， 即 


W(a)= min{T(a,b)+V(b), T(a,a)}. 


因此 ，V(la) = E(W(a))， 即 
V(a)= E(min{T(a,b)+V(D), T(a,qd)}). (11.3) 
在 这 个 例子 中 , 我们 有 7T(a,5)+V(5) =, U[6,14] . 因为 Ta q)= 10, 如 果 T(a,b)+V(b) <10 
(概率 为 1/2 ), 就 选择 路 径 abd, 这 条 路 径 的 时 间 均 匀 分 布 在 [6, 10], 均值 为 8. 同时 ， 
如 果 T(a,5b)+V(b) >10 (概率 也 是 1/2 )， 则 选择 旅行 时 间 为 Tla, dg = 10 的 路 线 ad. 
此 ,从 a 到 4 的 最 短 旅行 期 望 时 间 KV(a) 取 值 为 8 和 10 的 概率 平均 为 112. 均值 为 Va) = 
8(1/2)+10(1/2) = 9. 
类 似 地 ， 


V(s)= E(min{T(s,a)+V(a), 7T(s,d)}), 


其 中 7T(s,a)+V(a)=, U[14,22] ，7T(s, 4) = 20. 如 果 7T(s,a)+V(a) < 20 就 选择 从 s 到 a 
的 路 径 ， 这 种 情况 出 现 的 概率 为 (20-14)/(22-14) = 3/4. 这 条 路 径 所 需 的 时 间 均 匀 分 布 
在 [14, 20] 上， 均值 为 17. 如 果 7(s,a)+V(a) > 20 ， 那 么 选择 直接 的 路 线 sd， 延 时 为 
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20. 这 种 情况 的 概率 是 /4， 因 此 ，V(s)= 17(3/4)+20(1/4) = 71/4 = 17.75. 

这 里 我 们 注意 到 ， 通 过 观察 下 一 条 边 的 延 时 并 作出 合理 决策 ， 我们 将 s 到 4 的 旅行 时 
间 期 望 值 从 19 降低 到 了 17.5. 这 并 不 意外 ， 因 为 信息 越 多 越 有 帮助 . 同时 ,我 们 的 决策 取 
决 于 路 径 所 需 时 间 的 观测 值 . 例如 ， 从 节点 8 出 发 ， 如 果 T(sa)+F(a)>7Gs,d) ， 即 
7T(s,a)+9 > 20,7(s,a) >11， 就 沿 着 边 sd 前 进 ; 否则 选择 sa. 

现在 来 考虑 一 般 的 情况 . 最 关键 的 关系 式 如 下 : 

V0)= ECmin{TG, +7 (7D))), vi (11.4) 


这 个 式 子 很 好 理解 : 从 节点 i 出 发 ,可 以 选择 走 到 某 个 邻近 的 j. 这 样 的 话 ， 总 的 旅行 
时 间 就 是 从 i 到 j 的 TGi, 旋 加 上 之 后 从 7 到 4 的 最 小 时 间 期 望 VG)， 由 于 从 i 到 4 的 路 
径 必 须 通 过 男 一 个 相 邻 的 节点 j, 所 以 从 i 到 4a 的 最 短期 望 时 间 可 以 由 上 式 给 出 . 如 前 
所 述 ， 这 些 等 式 的 正确 性 是 基于 随机 变量 之 和 的 期 望 等 于 它们 的 期 望 之 和 . 
解决 这 些 不 动 点 方程 的 算法 为 
VD) = E(min{T(i, 7)+V, (ND}),n 0. (11.5) 


对 于 所 有 的 i,， 都 有 刀 (i)=0 .这 里 对 玉 Q) 的 理解 和 提前 规划 类 似 : 它 表示 的 是 经 过 
最 多 n 步 时 ， 从 i 到 4 所 需 的 最 短期 望 时 间 . 当然 ， 在 路 径 上 的 每 一 步 都 可 以 观测 到 
从 当前 结 点 出 发 各 个 边 的 延 时 . 

方程 组 ( 11.4 ) 是 解决 这 个 问题 的 随机 动态 规划 方程 .方程 组 ( 11.5 ) 叫 作 和 迭代 
求 值 方程 . 


11.4 马尔 可 夫 决 策 问 题 


更 具 一 般 性 的 路 线 决 策 问题 是 马尔 可 夫 链 的 控制 问题 . 在 每 一 步 都 观察 当前 状态 
并 作出 下 一 步行 为 的 决策 ， 这 一 决策 会 决定 转移 概率 以 及 下 一 步 的 代价 . 

具体 来 说 , 要 在 状态 空间 之 上 定义 一 个 受 探 的 马尔 可 夫 链 Xn), 首先 对 于 每 一 个 
Xe 并 都 定义 一 个 控制 行为 集合 4(x)， 即 在 状态 x 下 系统 所 能 采用 行为 的 集合 .对 于 
每 一 个 状态 xe 以 及 行为 ae 4(x) ， 系 统 状态 的 转移 概率 为 P(x,x';a) 宇 0 ， 这些 概 
率 满足 了 ,PGwx;q) =1， 同 时 ， 定 义 在 状态 x 时 采取 行为 a 的 代价 为 ctx, a). 

在 此 设 定 下 ， 序 列 X(n) 的 定义 如 下 : 

PLX(D)=%, X(2)=%,., X(N)=%, |X(0)=X, 40,.…, ,1 
= P(xo0, Xi; a0 PX, NX; A) Xx P(X, 1,X, ;ad,1). 


我 们 要 通过 选择 一 系列 的 行为 来 最 小 化 总 代价 的 平均 值 : 
EL c(X(m), a(m)) | (0) =x]. (11.6) 
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对 于 m=0,…,n， 行为 a(m)e A(X(m)) 是 由 Xm)、 先 前 的 状态 和 0),，…, Xm-1) 和 先 
前 的 行为 a(0), …, a(m--1) 决 定 的 . 

这 个 问题 被 称 为 马尔 可 夫 决 策 问题 . 

解决 这 个 问题 的 思路 与 之 前 的 路 径 计划 问题 类 似 . 我 们 将 这 里 的 一 个 个 状态 当 作 
路 径 中 走 过 的 节点 . 设 挛 Co 表示 将 式 (11.6 ) 中 的 n 蔡 换 成 m 时 的 代价 最 小 值 . 也 
就 是 说 ，V,(x) 是 当初 态 为 入 0) =x 时 ， 下 面 m+1 步 平均 代价 的 最 小 预期 值 ， 这 里 的 
V() 被 称 为 价值 函数 . 

其 动态 规划 方程 是 

V,(%) = min {ec(x,0) + ELV, (x) | X(0) = x,a(0) =a)} 


= Min {c(x, a) Eo ;a)V, (x)}. 


(11.7) 


设 a = g, (x) 是 使 得 式 (11.7 ) 取 值 最 小 的 ae 4(x) 的 值 , 则 a(m) e g,(X(m)) 是 使 得 式 
( 11.6 ) 取 值 最 小 的 值 . 
当 守 和 每 一 个 4(x) 都 是 有 限 集 时 ， 一定 存在 行为 a 使 式 (11.7 ) 取 最 小 值 . 该 结 
论 在 更 弱 一 些 的 假设 下 也 成 立 . 


示例 


1. 猜测 扑克 牌 

这 里 举 一 个 简单 的 例子 . 假设 有 一 副 已 经 完全 洗 均匀 的 扑克 牌 ， 共 52 张 . 现在 
我 们 每 次 翻 开 一 张 牌 . 在 每 次 翻 开 下 一 张 牌 之 前 ， 你 都 有 机 会 喊 “ 停 >， 如 果 下 一 张 
没有 翻 开 的 牌 是 A， 你 就 启 得 1 美元 ; 如 果 不 是， 你 就 输 了 ， 游 戏 结束 .这 个 问题 要 
探讨 的 是 什么 时 候 应 该 喊 停 . 


图 11-4 猜测 下 一 张 牌 是 不 是 A 
假设 在 剩余 的 m 张 牌 当中 还 有 x 张 A. 那么 如 果 喊 停 ， 启 的 概率 是 wm， 如 果 不 
喊 停 ， 当 下 一 张 牌 被 翻 起 来 之 后 ,还 剩 下 x-1 张 A 的 概率 是 xm ,否则 还 剩 下 x 张 A. 
设 Vx, m) 为 在 剩余 的 m 张 牌 当 中 还 有 x 张 A 的 情况 下 ， 你 获胜 概率 的 最 大 期 望 值 . 
这 里 的 动态 规划 方程 是 


Vm x)=max{>, Vom,x D+ Vm-Lx). 
nt, NE m 
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有 趣 的 是 ， 可 以 证 明 以 上 方程 的 解 是 V(m,x)=x/m. 同时 ， 当 x>0 时 ， 取 最 大 
值 操作 的 两 项 具有 相同 的 值 . 所 以 结论 是 ,只 要 至 少 还 有 一 张 A 在 剩余 的 牌 当 中 , 随 
时 喊 停 的 获胜 概率 都 相同 . 

2. 调度 工作 
假设 你 有 两 类 工作 要 做 . 第 i (i = 1, 2 ) 类 工作 在 完成 之 前 ， 每 单位 等 待 时 间 的 
代价 是 c .进行 一 项 第 i 类 工作 的 时 候 ， 无论 你 已 经 花 了 多 少时 间 ， 在 下 一 个 时 间 单 
位 完成 工作 的 概率 都 是 jy, .也 就 是 说 ， 每 个 i 类 工作 所 需 的 时 长 是 几何 分 布 的 ， 参数 
为 u, . 这 里 需要 解决 的 问题 是 应 当先 做 哪个 工作 才能 使 总 的 等 待 代价 最 小 . 


MC) 


图 11-5 下 一 步 该 做 什么 工作 


设 V(w, x%) 表示 及 个 第 1 类 工作 、x, 个 第 2 类 工作 的 情况 下 , 总 等 待 代价 的 最 

小 期 望 值 .与 前 面 类 似 ， 可 以 得 到 以 下 的 动态 规划 方程 : 
Vx,X,)= xc +xXc, +min{gTV (x om ,x,), LV x,(x, —1)')}. 

不 妨 假设 cm > cx 如 ， 可 以 直接 证 明 动态 规划 方程 的 解 如 下 : 

汇丰 二] 和 wl) ee 2 
2 2 A 

而 且 , 达到 这 个 最 小 期 望 代价 的 方法 是 : 总 是 先 处 理 第 1 类 工作 . 这 种 策略 被 叫 作 ch 
法 则 . 所 以 , 尽管 人 们 可 能 倾向 于 优先 处 理 具有 更 多 未 完成 任务 的 工作 , 但 是 这 种 选 
择 却 未 必 是 最 优 的 . 

有 一 种 互 换 的 思路 可 以 证 明 cp 法 则 的 最 优 性 . 假设 你 希望 按照 如 下 顺序 完成 工 
作 : 1221211. 也 就 是 说 ， 先 完成 一 项 1 类 工作 ， 然 后 完成 一 项 2 类 工作 ， 之 后 再 完 
成 一 项 2 类 工作 ， 以 此 类 推 . 我 们 按照 如 下 方法 改变 策略 : 在 完成 第 一 项 2 类 工作 之 
后 ， 转 为 处 理 原本 在 它 之 后 的 一 项 1 类 工作 . 这 么 一 来 ， 就 交换 了 第 1 类 、 第 2 类 工 
作 的 顺序 , 也 就 改变 了 两 类 工作 的 等 待 时 间 ( 可 以 看 到 只 有 这 两 项 工作 受到 影响 ). 平 
均 来 看 , 第 1 类 工作 的 等 待 时 间 降 低 了 1/ , 因为 原先 在 它 之 前 的 第 2 类 工作 平均 需 
要 1/j 的 时 间 完成 任务 . 因此 ,第 1 类 工作 的 等 待 代价 降低 了 c / 心 . 同 理 , 第 2 类 
工作 的 等 得 代价 平均 增加 了 c, /jp 因此， 总 的 平均 代价 降低 了 c /pc/4. (因为 
cm > cy414， 所 以 这 是 一 个 正 数 ) 通过 归纳 , 可 以 看 到 先 做 完 所 有 第 1 类 工作 是 最 优 
的 选择 . 


Hic 


> 


V(X,X,)= 0 
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当然 ， 能 够 通过 简单 推理 选 出 最 优 策略 的 控制 问题 非常 少 . 但 是 ,仍然 不 要 忘 了 
这 种 可 能 性 ， 它 有 时 可 以 帮助 我 们 简单 地 推导 出 结论 . 例如 ,假设 工作 排 成 如 图 11-5 
所 示 的 队列 ， 工 作 的 到 达 过 程 服从 独立 的 伯 努 利 过 程 . 也 就 是 说 ， 对 于 ;= 1,2, 第 i 
类 工作 在 每 一 个 时 间 点 到 达 的 概率 为 ,彼此 独立 . 用 同样 的 互 换 策略 可 以 证 明 : 长 
期 来 看 ，cu 法 则 能 够 使 所 有 工作 等 待 代价 的 平均 期 望 值 (并 没有 严格 定义 ， 不 过 读 
者 可 以 猜 出 它 的 意思 ) 最 小 . 这 很 重要 ， 因 为 这 种 情况 下 的 动态 规划 方程 并 不 能 被 显 
性 地 解 出 ， 而 且 严 格 证 明 这 条 法 则 的 最 优 性 非常 复杂 . 

3. 雇用 帮工 
本 节 要 考察 的 问题 如 下 : 假设 需要 处 理 的 工作 任务 在 随机 的 时 间 点 到 达 ， 而 你 需 “ 
要 选择 自己 来 做 还 是 雇用 帮工 . 直觉 告诉 我 们 ， 当 待 完 成 的 任务 量 超过 某 一 个 国 值 的 
时 候 ， 就 应 该 需要 一 个 帮工 . 

假设 在 每 个 时 间 点 n= 0, 1,…,a 有 工作 到 达 的 概率 是 4 s(0,D .如 果 自 己 处 理 ， 
在 单位 时 间 内 完成 工作 的 概率 为 ws (0,1) ， 且 该 机 率 与 过 去 的 信息 独立 . 如 果 雇 用 一 
个 帮工 , 在 单位 时 间 内 合作 完成 工作 的 概率 为 wu e (0,1) , 其 中 w >1. 设 c0D)=B>0 为 
雇用 帮工 时 在 时 刻 n 的 支出 ; 而 不 雇用 帮工 的 时 候 c(z) = 0 . 我们 需要 最 小 化 


EL (Xn) + ce(n)], 


其 中 X(tn) 表 示 在 时 刻 n 等 待 处 理 的 工作 总 量 . 这 个 式 子 综合 考虑 了 工作 等 待 完成 时 的 
代价 和 雇用 帮工 的 支出 . 如 果 一 直 雇 用 帮工 ， 工 作 的 等 待 代价 就 会 最 小 ， 如果 一 直 不 
雇 帮 工 ， 雇 用 帮工 的 支出 就 会 取得 最 小 值 . 所 以 这 个 问题 的 核心 是 ， 找 到 雇用 帮工 的 
最 佳 时 机 ， 取 得 最 优 折 中 方案 . 

用 X(n) 表 示 时 刻 n 系统 的 状态 . 设 


V0 =min ELY (Xm) + ce(m))| XO0) = 车 


要 在 每 一 时 刻 根据 系统 的 状态 选择 雇用 帮工 或 不 雇用 ， 使 得 上 式 取 最 小 值 . 随机 动态 
规划 方程 为 


V, (=x+ min{BHa=D}+( -DU- A (N) 
+A— ua min{x+1, K}) 
+(1—A4)u(a) TV, (max{x—1,0}) 
+Au(a) V(x)},n 二 0, 
其 中 ,定义 (0) = ，1W()=ax， 玉 (x)=0， 同时 ， 设 积累 的 任务 总 量 最 大 值 为 天， 
即 如 果 已 经 积累 了 天 件 工作 任务 ， 就 不 再 接受 新 的 任务 . 
我 们 用 Matlab 来 解决 这 个 问题 . 正如 我 们 期 望 的 ， 算 法 认为 在 时 刻 n 如 果 
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(OO > Y(N 一 n) 就 应 当 雇 一 个 帮工 , 其 中 y(m) 是 随 着 m 递减 的 常数 . 随 着 时 间 推 移 ， 
m 增加 ,接受 更 多 工作 的 代价 增加 , 雇用 帮工 的 倾向 性 也 更 大 . 图 11-6 给 出 了 B=14 
和 B=20 时 y(n) 的 值 ， 图 中 44=0.5, =0.6,g =1.5,K =20,N=200， 这 里 比较 直观 
的 是 ， 帮 工 的 工资 越 高 ， 我 们 就 会 在 积累 了 越 大 的 工作 量 之 后 才 决 定 雇用 他 们 . 


中 rN-n),B=20 | |y(N-n),B=14| 


图 11-6 在 时 刻 n 如 果 积 累 的 工作 量 超过 y(n) 就 应 当 雇 用 帮工 


4. 排 哪个 队 
在 超市 采购 以 后 , 你 会 选择 在 哪个 收银 员 的 队伍 中 排队 结账 ? 一 个 很 自然 的 做 法 
是 猜测 哪个 队 的 期 望 排队 时 间 最 短 ， 然 后 排 这 个 队 . 每 个 人 都 会 这 样 做 ， 因 为 这 种 策 
略 似乎 会 最 小 化 每 位 顾客 的 排队 时 间 . 但 是 你 的 一 位 朋友 之 前 学 过 了 这 门 课 , 他 会 告 
诉 你 ， 事情 并 不 一 定 是 这 样 的 . 让 我 们 一 起 来 看 看 这 个 看 似 矛 盾 的 说 法 吧 . 
假设 有 两 个 队伍 ， 在 每 一 时 刻 有 顾客 来 排队 的 概率 是 4 .队列 i 的 服务 时 间 是 关 
于 参数 j 的 几何 分 布 ， 其 中 i= 1,2. 
假设 当 你 到 达 时 ,第 i 个 队伍 中 有 x 个 顾客 在 等 待 (i= 1 2 )， 如 果 
2 
A /0 
你 就 应 该 加 入 队伍 1， 因 为 这 样 会 使 得 你 等 待 服务 的 期 望 时 间 最 短 . 然而 ， 如 果 和 希 
望 使 得 两 个 队伍 中 所 有 顾客 总 的 等 待 时 间 最 短 ， 就 会 发 现 公共 最 优 策略 和 个 人 最 
优 策略 并 不 相同 . 图 11-7 给 出 了 < 时 的 例子 . 这 张 图 说 明 在 公共 最 优 策略 中 
有 的 顾客 需要 排 在 队伍 2, 尽管 这 时 他 们 的 等 待 时 间 会 大 于 采用 个 人 最 优 策略 时 的 
等 待 时 间 . 
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图 11-7 公共 最 优 策 略 如 折线 所 示 ， 个 人 最 优 策 略 如 直线 所 示 


这 个 例子 的 目标 可 以 被 描述 为 最 小 化 总 的 代价 : 
2P"E(X, (QD) +X,(n)). 


在 这 个 表达 式 中 ，,(n) 表示 时 刻 n 在 队伍 i 中 排队 的 顾客 数 . 每 一 个 队伍 的 容量 是 
K. 为 了 防止 丢失 太 多 顾客 ,我们 要 求 如 果 只 有 一 个 队伍 已 经 满员 ， 则 刚 到 达 的 顾客 
排 到 另 一 个 未 满 的 队伍 . 在 总 代价 的 表达 式 中 ， 我 们 用 折扣 因子 8 s (0,D 来 保证 总 代 
价 有 界 . 在 图 11-7 中 KK=8,4=0.3, 4 =0.3, 14=0.2,N=100,B6=0.95 . (事实 上 ， 图 
中 的 队伍 长 度 是 x +1 和 x,+2 ， 因 为 Matlab 不 允许 行 标 为 0. ) 


11.5 无 限时 域 问 题 


求 式 (11.6 ) 最 小 值 时 考虑 的 是 有 限 的 时 长 x»， 即 系统 在 时 刻 n 停止 .在 这 种 情 
况 下 ， 我 们 研究 了 当 系 统 处 在 状态 x、 并 还 有 m 步 要 走时 的 最 小 代价 玉 ,(x) ， 因此， 
在 任 一 时 刻 之 后 还 要 花费 的 代价 以 及 在 状态 x 的 最 佳 行为 均 取决 于 剩余 的 时 间 

当 考虑 的 时 长 为 无 限时 ， 问 题 反 而 变 得 简单 了 . 这 是 因为 剩余 的 时 间 在 每 个 时 刻 
都 是 相同 的 . 这 时 候 要 使 得 总 的 代价 有 界 ， 就 需要 对 未 来 的 代价 进行 折扣 . 因此 , 我 
们 考虑 的 问题 是 最 小 化 折扣 后 的 代价 : 


如 六 PX(m),a(m) | X(0)=x]. 


(11.8) 


在 这 个 表达 式 中 ，0 < 6 <1 是 折扣 率 . 直观 看 来 ,如果 很 小 ， 那么 未 来 的 代价 
就 不 那么 重要 ， 人 们 也 就 不 必 考 虑 太 远 ; 而 当 有 接近 于 1 的 时 候 ， 人 们 就 需要 对 长 期 
效应 加 以 重视 . 
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设 Vx) 表示 式 (11.8 ) 代价 的 最 小 值 ， 即 每 一 步 可 选 行为 都 经 过 优化 后 的 最 小 
值 . 采用 和 前 面 类 似 的 推导 ， 可 以 证 明 
VW = min{c(x, + BELV XD) X(0) =x, a(0) = a]} 


= min{c(%,0) + BP y;a) (9y). (11.9) 


这 里 的 式 子 与 式 (11.7 ) 很 像 ， 不 同 之 处 在 于 折扣 因子 的 存在 ， 以 及 价值 函数 与 
时 间 无 关 . 注意 ， 这 些 式 子 也 是 不 动 点 方程 ,求解 这 些 方程 的 常见 方法 是 考虑 
V(X) = min {ew 0) + BP OW,(y),n >0, (11.10) 


其 中 万 CO =0,Vx .这 等 价 于 : 


V(X) = min A>, P(X(m),a(m)| X(0)=x]. 


可 以 证 明 式 (11.10 ) 的 解 六 (x) 满 足 玉 (x) 王 V(x),n 局, 其 中 Vw) 为 式 (11.9 ) 的 解 . 
11.6 小 结 
口 动态 规划 方程 


口 可 控 马 尔 可 夫 链 
口 马尔 可 夫 决 策 问题 


重要 方程 与 公式 
马尔 可 夫 决 策 问题 P(x,y;a) 11.4 节 
随机 动态 规划 方程 V(X) = E(min{c(x, a) + > PG, yO, 0)) 式 (11.7) 


11.7 参考 资料 


Ross 的 Introduction to Stochastic Dynamic Progamming 一 书 是 出 色 的 随机 动态 规 
划 入 门 书 ,“ 猜 测 扑克 有 牌 ”的 例子 就 是 从 中 借鉴 的 . 这 本 书简 明 易 懂 地 阐述 了 核心 概 
念 ， 然 后 通过 精心 选择 的 例子 讲解 了 定理 的 延伸 和 拓展 . 教材 Dynamic Programming 
and Optimal Control 全 面 地 讲解 了 动态 规划 的 算法 . 书 中 有 很 多 例题 ， 并 且 详 细 讨论 
了 理论 与 实际 的 相关 问题 . 
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11.8 练习 


1. 考虑 一 个 离散 的 队列 , 有 1 名 服务 员 为 顾客 提供 服务 . 每 1 个 时 间 点 有 1 位 新 
顾客 加 入 排队 的 概率 为 4<1. 服务 员 以 je[0,1] 的 速率 为 这 个 队伍 工作 ， 即 每 个 时 刻 
能 完成 1 位 顾客 需求 的 概率 是 w .由 于 精力 有 限 , 你 希望 服务 员 以 尽 可 能 小 的 速率 提 
供 服务 ， 并 保持 队伍 稳定 . 因此 ， 你 希望 服务 员 以 yw* = 4 的 速度 工作 . 不 幸 的 是 ,你 
并 不 知道 4 的 具体 值 ， 能 够 看 到 的 只 是 队伍 的 长 度 . 我 们 希望 用 基于 随机 化 梯度 的 算 
法 通过 以 下 步 又 得 到 A 的 值 . 


(a) 使 用 梯度 下 降 算法 ， 调 整 使 得 函数 V(p) = 50 _ 1: 取 值 最 小 . 


(b) 给 定 服务 员 在 时 间 节 点 n 的 生产 力 ju, ， 计 算 EI[O(+D-O(0D)12C0D = 
gq > 0] ，Q(n) 表 示 时 刻 n 的 队伍 长 度 ， 如果 gq = 0 会 怎样 ? 

(c) 基于 (a) 和 (5) 的 结论 , 使 用 随机 梯度 投影 算法 写 出 相应 的 Matlab 代码 . 请 注意 
0 pl1. 

提示 : 为 了 避免 队列 长 度 变 为 0， 从 一 个 较 大 的 队列 长 度 开始 计算 . 

2. 考虑 有 3 个 结 点 的 路 线 图 : 起 点 是 s, 终点 是 4, 中 间 结 点 是 rx. 从 s 到 a 的 直 
接 路 径 耗 时 20. 从 s 到 x 要 7 个 单位 时 间 . 从 > 到 4 有 两 条 路 径 ，, 其 延 时 服从 8 到 20 
之 间 的 均匀 分 布 ， 且 相互 独立 . 

(a) 如 果 和 希望 在 旅行 之 前 作出 规划 ， 该 选择 哪 一 条 路 径 从 s 走 到 qd? 

(b) 如果 在 结 点 能 够 确切 知道 从 > 到 ! 需要 的 时 间 ， 应 该 选择 哪 条 路 ? 

3. 考虑 一 个 离散 时 间 的 排队 问题 , 其 中 新 顾客 的 到 达 过 程 是 一 个 参数 为 4 的 伯 努 
利 过 程 . 有 1 名 服务 员 以 速率 w 为 这 个 队伍 提供 服务 . 你 可 以 考虑 为 队伍 多 分 配 1 名 
服务 员 ， 这 样 能 够 使 服务 速率 增加 到 j(1+4a) ，a >0. 不 过 , 增加 1 名 服务 员 是 有 代 
价 的 . 设 在 时 刻 n 的 花费 是 X(n)+H(n)， 其 中 Xn) 是 队列 长 度 ，H(n) 是 增加 服务 员 的 
指示 函数 (增加 一 名 服务 员 的 时 候 等 于 1， 否 则 等 于 0 )， 你 希望 在 有 限时 间 情 况 下 使 
代价 最 小 化 . 


2 ECX(n) +H(n)) 


(a) 写 出 动态 规划 方程 . 

(b) 取 参 数 a=0.5 且 N=50， 用 Matlab 解决 动态 规划 问题 . 

4. 对 图 11-6 所 示 的 路 线 图 从 节点 1 到 5 进行 路 线 规划 . 在 图 中 各 边 上 旅行 所 需 
的 时 间 如 下 : 7(1,2)=2、 7(,3)~U[2,4]、7(2,4)=1、702,5)~UI[4,6]、7(4, 5)~U[3, 5]、 
7(3, 5)= 4. 其 中 所 UV[a,b] 表 示 随 机 变量 区 服从 a 到 2 的 均匀 分 布 . 
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图 11-6 ”路线 规划 


(a) 如 果 想 提前 规划 ， 应 当选 择 哪 一 条 路 线 ? 期 望 的 旅行 时 间 是 多 少 ? 

(b) 现在 假设 在 每 一 个 结 点 ， 都 可 以 知道 下 2 步 确 切 的 旅行 时 间 . 就 是 说 ， 在 结 
点 1 可 以 知道 除了 7T(4, 5) 以 外 所 有 路 径 的 旅行 时 间 . 设 VQ) 表示 从 结 点 i 到 5 的 最 小 
期 望 时 间 ，1 三 i 志 5. 计算 Vl?), 1<i<5. 

5. 有 一 家 “小 盒子 ”工厂 ， 主 要 做 盒子 生意 . 它 在 年 初 存 及 个 盒子 . 根据 
合同 ,在 年 末 需 要 提供 di 个 盒子 . 不 过 ，dqd, 的 数值 直到 这 一 年 结束 才能 确切 知道 . 

在 年 初 , 他 们 可 以 计划 生产 uw 个 盒子 . 通过 使 用 廉价 的 劳动 力 , 每 个 盒子 的 成 本 
价 是 4. 在 年 末 ,“ 小 盒子 ”工厂 可 以 向 “盒子 大 王 ” 公 司 借 冯 个 盒子 来 完成 合同 的 
要 求 ， 代 价 是 SO ) . 

满足 合同 要 求 后 剩余 的 盒子 可 以 留 到 下 一 年 zy =x+y 一 d; .可惜 的 是 ， 这 些 
多 出 来 的 盒子 需要 支付 存储 费 r(x,,) . 

现在 你 的 任务 是 提供 一 个 未 来 20 年 的 盒子 生产 以 及 存储 计划 ， 目 标 是 使 得 未 来 
20 年 的 总 花 销 最 小 ， 设 所 有 的 花费 在 年 未 结算 ， 没 有 通货 膨胀 . 因为 你 在 第 20 年 就 
能 拿 到 退休 金 了 ， 所 以 不 用 担心 20 年 以 后 “小 盒子 ”工厂 的 花 销 . (不 妨 设 开 始 时 有 
0 个 盒子 . ) 

(a) 从 马尔 可 夫 决 策 的 角度 ， 给 这 个 问题 建 模 . 

(b) 写 出 动态 规划 方程 . 

(c) 用 Matlab 解 上 述 方程 ， 取 如 下 参数 : 

DD r(x,)= x; 
Ds(y)= 20y,; 
DA=1; 

OQ qd, =, U{,2,…,10}. 

6. 甲 和 乙 在 比赛 电子 游戏 ， 乙 在 时 刻 0 从 与 甲 相 距 7 = 10 的 位 置 出 发 ， 向 甲 靠 
近 ， 速 度 是 1. 例如， 如 果 甲 在 平面 的 (0, 0) 点 ， 乙 从 (0, DD 点 出 发 向 甲 靠近 ， 则 经 过 
秒 以 后 , 乙 的 位 置 是 (0，7- 四 ， 甲 选择 了 一 个 随机 的 时 间 点 ,均匀 分 布 在 [0, 区间， 
此 时 他 会 向 乙 射击 . 如 果 甲 先 射 击 ， 乙 就 输 了 . 设 甲 的 射击 一 定 能 命中 (这 只 是 一 个 
电子 游戏 的 假设 ). 
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(a) 乙 需 要 决定 在 哪个 时 间 点 t 向 甲 射击 ， 使 得 自己 获胜 的 概率 最 大 .如 果 乙 在 
与 甲 相距 x 的 位 置 射击 ， 他 命中 的 概率 为 1/(1+x)*. 乙 只 有 一 次 射击 的 机 会 . 

(b) 求 乙 能 够 在 决斗 中 获胜 的 最 大 概率 ? 

(c) 现在 假设 乙 有 两 颗 子 弹 . 请 找到 乙 应 当 射 击 的 两 个 时 间 点 4 和 ,使 得 他 获 
胜 的 概率 最 大 .同样 , 乙 在 与 甲 相 距 x 的 位 置 射击 , 命中 的 概率 为 1/(+x)* ， 两 次 射 
击 相互 独立 . 

7. 假设 你 在 玩 一 个 赌博 游戏 ， 获 胜 的 概率 Ps (0,0.5) ， 输 的 概率 是 1-p. 游戏 开 
始 时 你 有 16 枚 金币 ,每 次 赌 上 yy 枚 金币 ，y e {1,2,4,8,16} . 计算 你 在 破产 以 前 能 够 积 
攒 到 256 枚 金币 的 概率 . 初始 资金 为 多 大 时 ， 这 个 概率 能 够 达到 最 大 ? 
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主题 : 线性 二 次 型 高 斯 问题 的 控制 ， 不 完全 观测 


人 - 立 - 


背景 知识 : 第 7 章 , 第 11 章 
12.1 线性 二 次 型 高 斯 问题 


前 面 讨论 的 动态 规划 思想 不 仅 可 以 应 用 在 可 控 的 马尔 可 夫 链 上 , 也 可 以 用 于 其 他 
可 控制 的 系统 中 . 下 面 来 考虑 一 个 代价 为 平方 函数 且 带 有 高 斯 白 骂 声 的 线性 系统 ， 即 
线性 二 次 型 高 斯 问题 . 为 了 进行 简化 ， 我 们 只 考虑 标量 的 情况 . 

系统 方程 为 


X(n+l)=aX(n)+U(n)+V(n), n=0, (12.1) 


其 中 ，X(n) 表 示 系 统 状态 ，U(n) 是 一 个 控制 量 ，V(n) 是 噪声 . 设 随机 变量 Vn) 为 独立 
同 分 布 的 高 斯 变量 N(0,o ) . 

这 里 需要 解决 的 问题 是 , 根据 此 前 对 系统 状态 的 观测 ， 在 每 一 时 刻 n 选择 一 个 实 
数 的 控制 值 V(n)， 使 得 代价 的 期 望 值 最 小 : 


ETy CX) + PU) ) | XO0) = 可 (12.2) 


控制 的 目标 是 使 得 系统 状态 的 值 接近 于 0， 并 限制 为 此 付出 的 代价 . 

问题 的 核心 是 寻找 两 方面 的 折 中 : 一 方面 是 系统 状态 值 很 大 时 的 代价 ， 另 一 方面 
是 控制 系统 状态 接近 于 0 的 代价 . 我 们 先 通 过 一 个 简化 的 问题 来 获得 对 求解 的 直观 认 
识 . 考虑 最 小 化 : 


(ax+u) + Bu’. 


这 个 简单 问题 没有 噪声 影响 ， 而 且 只 进行 一 次 控制 . 为 了 得 到 这 个 (关于 zx 的 ) 表达 
式 的 最 小 值 ， 我 们 将 这 个 式 子 关于 wu 求 偏 导 ， 并 令 偏 导数 为 0， 得 到 
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2(ax+u)+2pBu = 0， 


所 以 
a 
i 网 
1+p 
可 见 , 使 得 花 销 最 小 的 控制 量 与 系统 状态 成 线性 关系 . 当 系 统 状态 远 远 偏离 0 时 ， 需 
要 的 控制 量 很 大 .下面 的 定理 表明 ， 同 样 的 结论 也 适用 于 式 (12.2 ). 


-中 XX(n) 


U(n) X(n) 


g(N-n) 


图 12-1 最 佳 控制 与 系统 状态 成 线性 关系 


定理 12.1 最 佳 线性 二 次 型 高 斯 控制 
对 于 式 ( 12.1 ) 所 示 的 系统 ， 使 得 式 (12.2 ) 取 最 小 值 的 控制 量 U(n) 为 
Un) = g(N—n)X(n). 
其 中 d(-1)=0， 


ad(m-1) 


gm) = 0 (123 ) 
A (12.4) 
B+da(m-1) 


最 佳 控制 与 系统 状态 成 线性 关系 ， 且 系数 取决 于 剩余 的 时 间 . 这 些 系数 


可 以 在 时 刻 0 计算 出 来 ， 而且 不 受 噪声 的 影响 ， 可 以 假设 Vln) = 0， 然 后 计 
算 所 有 的 控制 量 . 


证 明 
设 信 (x) 为 式 (12.2 ) 的 最 小 值 ， 将 其 中 的 入 换 成 m， 随机 动态 规划 方程 为 


V(x)=min{x +PBu +E(V, (ax+u+W))}, m0, (12.5) 


其 路 = N(0,o”)， 取 V(x)=0. 
可 以 验证 这 些 方程 的 解 为 
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V(x) =c(m)+ dad(m)x’, 
其 中 c(m) 和 dl(m) 为 常量 ，d(m) 满 是 式 (12.4 ). 
也 就 是 说 ， 
min{z +Bu’ +E[lc(m-—1)+d(m-—l)(ax+u+V)]}=c(m)+d(m)x’. (12.6) 


其 中 d(m) 由 式 (12.4 ) 给 出 ， 且 最 优 取 值 为 u= gl(m)x， 其 中 g(m) 由 式 (12.3 ) 给 出 . 


这 里 的 证 明 是 一 个 简单 的 代数 计算 ， 请 读者 自行 证 明 . 和 
仿 N 一 oo 


如 果 (12.2 ) 中 的 Y 变 得 非常 大 会 怎么 样 ? 观察 式 (12.4 ), 我 们 发 现 如 果 |a| < 1， 
那么 4d(m) 一 4d 且 六 一 oo ， 其 中 4 是 以 下 不 动 点 方程 的 解 : 


a apBda 
d= f(d): ee 
为 了 说 明 原因 ， 请 注意 
WE 
f(d) (Brady 


所 以 ， 对 于 所 有 的 4 三 0, 都 有 0<f(4)<a? 且 f(4)>0. 因此 ，f(q) 是 一 个 压缩 
映射 : 
|f(q)-f(d,)[ ald-d,|,vd,d, 0, 
其 中 e(0,1) (这 里 g = ao ). 现在 取 d)=4 且 4,=d(m)， 我 们 得 到 : 
ld-dm+DEalad-d(m)l, vm=0. 
因此 
Id-d(ml< a” |d-a(0)|, 
这 表明 d(m) > 4 ， 如 前 文 所 述 . 所 以 , 式 (12.3 ) 表明 mw 时 g(m) 一 2。， 其 中 
四 ad 
DA+Hd 
所 以 ， 当 剩余 的 时 间 还 很 多 的 时 候 , 最 佳 的 控制 值 接近 于 UN-m) = gX(N-m). 这 表明 
这 个 控制 策略 可 能 在 N 趋 于 无 穷 大 时 最 小 化 式 (12.2 ) 所 示 的 花 销 . 
解决 这 个 问题 的 正式 做 法 是 考虑 下 式 定 义 的 长 期 平均 花 销 : 


lm E> (Xm) + BU XO) =x]. 


区 


这 个 表达 式 是 单位 时 间 内 的 平均 花 销 .可 以 证 明 ， 如 果 |a|<1， 那 么 控制 值 取 U(n) = 
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gXKD， 一 定 可 以 使 平均 花 销 最 小 ， 其 中 g 的 定义 如 前 所 述 . 


一 一 本 XX(n) 


8 


图 12-2 ”达到 平均 花 销 的 最 佳 控 制 值 
12.2 有 噪声 观测 时 的 线性 二 次 型 高 斯 问题 
在 上 一 小 节 ， 我 们 控制 了 一 个 具有 高 斯 白 噪声 但 系统 状态 可 观测 的 线性 系统 ， 下 


面 考虑 系统 状态 观测 带 有 噪声 的 情况 . 
系统 可 以 描述 为 


Xn+l)=ax(n) +U(n)+V(n),n 二 0; (12.7 ) 
Y(n)=X(n) +Wn). (12.8 ) 
中 随机 变量 Wn) 为 独立 同 分 布 的 .AO0,w ) 变量 上 且 与 的 四 独立 . 
这 里 要 解决 的 问题 是 ， 在 每 一 时 刻 n， 基 于 Y" = {Z(0)…*7(z} 的 值 找到 合适 的 
控制 值 Com) ， 使 得 总 花 销 式 〈12.2 ) 的 期 望 值 最 小 . 
下 面 的 定理 给 出 了 这 个 问题 的 解 . 


Y 


-一 站 (7) 


Y(n) 


U(n) 


(0) 
Xx 


SCV - n) 


图 12-3 ”最 佳 控制 值 与 系统 状态 的 期 望 成 线性 关系 


定理 12.2 ”有 噪声 观测 时 的 最 优 线 性 二 次 型 高 斯 控制 问题 
问题 的 解 为 
U(n) = g(N-—n)X(n). 


其 中 
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XR(n) = EL[X(n)|Y(0),*…, 7(n),U(0),*…,U(n—))] 


可 以 用 卡尔 曼 滤 波 器 以 及 式 (12.3 ) ~ (12.4 ) 定义 的 常数 g(m) 计 算出 来 . 
因此 ， 这 里 的 控制 值 与 Xl(n) 能 够 准确 观测 到 时 的 计算 值 一 样 ， 只 是 把 
Xln) 蔡 换 成 了 对 (n) ， 这 个 性 质 被 称 为 确定 性 等 价 . 


证 明 

定理 中 g() 的 取 值 与 噪声 Kn) 无关 这 一 点 也 给 了 我 们 一 些 理解 定理 内 容 的 提示 : 
给 定 Y”， 系统 状态 X(n) 是 方差 为 vy 的 随机 变量 AM(X(n),v*) . 于 是 ,可 以 将 噪声 观测 
看 作 增 加 了 系统 状态 的 方差 ， 就 像 是 V(n) 的 方差 增加 了 一 样 . 

下 面 阐述 这 个 结论 的 大 致 证 明 思路 ， 详 细 的 推导 过 程 省 略 . 设 在 时 刻 N-m+l 给 
定 Y*””* 情况 下 未 来 花 销 的 最 小 期 望 值 为 

c(m—D)+d(m- DN-m+1), 
则 在 NW-m 时 刻 ， 给 定 YY™ 以 及 U(N 一 m) =u ， 未 来 花 销 的 期 望 值 就 是 下 式 的 期 望 值 : 
X(N-m) +Bu +c(m-D)+ad(m-D)XN-m+1). 


现在 有 
X(N-m)= X(N-m)+n. 


其 中 7 是 与 刀 ” 独 立 的 高 斯 随机 变量 . 同时， 与 卡尔 曼 滤 波 器 的 情况 一 样 ， 
X(N-m+l)=aX(N-m)+u 
+K(N—-m+l){Y(N—-m+D)- EY(N-m+D)|Y"™]). 
此 外 , 根据 联合 高 斯 分 布 的 条 件 期 望 ，Y(N 一 m+1) 一 EIY(N 一 m+])|1Y*“] 是 一 个 期 望 
为 零 目 与 尺 ”独立 的 高 斯 随机 变量 . 因此 ， 
X(N m+1)= aX(N m)+u+t+Z. 
其 中 Z 是 一 个 均值 为 0 的 高 斯 随机 变量 
于 是 ， 在 时 刻 N- mtl， 未 来 花 销 的 期 望 值 为 下 式 的 期 望 : 
(X(N—m) +n) +PBu tec(m-l)+ad(m-D)(aX(N-m)+2), 


即 
XN-m)? +PBu’+c(m-D)+ad(m-DaX(N-m+ut+2). 
这 与 式 (12.6 ) 一 致 ， Se m) ， 把 亚 换 成 了 Z. 最 后 ， 由 于 VV 
的 方差 大 小 并 不 影响 c(m) 和 d(m) 的 值 ， 这 就 证 明了 我 们 的 结论 . 和 » 
仿 N 一 oo 


与 X(n) 能 够 精确 观测 的 情况 一 样 ， 可 以 证 明 ， 如 果 |a| < 1， 则 控制 量 
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U(n) = gX(n) 
能 够 使 单位 时 间 内 的 平均 花 销 最 小 . 同时 , 这 里 的 卡尔 曼 滤 波 右 变 成 了 稳 态 的 滤波 右 ， 
具有 如 下 形式 : 
Xn+D)=arn)+tut KIY(n+1)-ar(n) -Un)]. 


图 12-4 ”根据 噪声 观测 ， 使 平均 花 销 最 小 的 最 佳 控 制 值 ， 这 里 滤波 器 为 稳 态 卡尔 曼 滤 波 器 
12.3 部 分 可 观测 的 马尔 可 夫 决 策 问题 


前 面 章节 讨论 过 可 控 的 马尔 可 夫 链 ， 其 中 每 一 时 刻 的 控制 都 基于 已 知 的 系统 状 
态 . 在 这 一 入, 我 们 研究 马尔 可 夫 链 的 状态 无 法 准确 观测 的 问题 ， 即 可 控 的 隐 马 尔 科 
夫 链 .这 一 类 问题 被 称 为 部 分 可 观测 的 马尔 可 夫 决 策 问题 . 

我 们 先 来 看 一 些 具体 的 例子 ,为 读者 提供 这 些 问题 的 基本 思路 . 稍 后 讨论 一 般 性 
的 情况 . 


假设 你 找 不 到 钥匙 了 .不 过 你 知道 钥匙 要 么 在 4 包 中 ， 要么 在 B 包 中 . 钥匙 
在 4 包 的 概率 为 p. 不 幸 的 是 , 你 的 包 里 堆 满 了 杂乱 的 东西 . 如 果 花 一 个 单位 时 间 
(例如 10 秒 钟 ) 在 4 包 中 寻找 ,而 且 钥 是 确实 在 4 包 内 ,找到 的 概率 是 .类似 
地 , 如果 钥 匙 确实 在 B 包 中 , 论 一 个 单位 时 间 在 其 中 寻找 ,能 够 找到 的 概率 为 8. 在 
每 一 个 时 刻 ， 都 可 以 选择 下 一 步 寻找 哪个 包 . 你 的 目标 是 使 得 找到 钥匙 所 花 时 间 
的 期 望 值 最 小 . 


172 EECS 应 用 概率 论 


图 12-5 ”钥匙 在 哪里 


这 个 系统 的 状态 是 钥匙 的 位 置 ， 即 4 或 B. 但 你 无 法 观测 到 这 个 状态 . 核心 的 思 
路 是 考虑 在 已 知 时 刻 n 以 前 所 有 观测 量 的 条 件 下 ， 钥 是 在 4 包 中 的 条 件 概 率 p, .这 
里 的 p, 是 一 个 可 控 马 尔 可 夫 链 .不幸 的 是 ，p, 的 取 值 集合 为 [0,1]， 这 是 一 个 无 限 不 
可 数 的 集合 . 不 过 先 别 泄气 . 
假设 在 时 刻 n， 钥 匙 在 4 包 中 的 条 件 概 率 为 p, ， 你 在 A 包 中 找 了 1 个 单位 时 间 ， 
并 没有 找到 钥匙 .那么 p,, 是 多 少 呢 ? 我 们 说 
pl(l—0) 


和 =: f(A4,p,). 
Dr: i f (4,p,) 


式 中 的 分 子 是 钥匙 在 4 包 中 但 没有 被 找到 的 概率 , 分 母 是 没有 找到 钥匙 的 概率 ( 钥匙 


可 能 在 4 包 中 也 可 能 在 B 包 中 )， 当 然 ， 如 果 找 到 了 钥匙 ， 问 题 就 结束 了 . 
类 似 地 ,假设 你 在 B 包 中 找 了 一 番 ， 没 有 找到 . 那么 
Pn 人 =: f(B, p,). 


p,+(1—p,)(1-—p) 

因此 , 你 的 行动 在 控制 着 p, . 设 Vtp) 表 示 找 到 钥 是 所 花 时 间 的 最 小 期 望 值 ， 其 中 

p 表示 钥匙 在 4 包 中 的 概率 ， 则 相应 的 动态 规划 方程 为 
V(p)=1+min{(l— po (f(4,p), -0-PPV(B, Pp)}. (12.9) 

式 中 的 常数 1 表示 第 一 步 花费 的 时 间 . 取 最 小 值 的 第 一 项 表示 你 在 4 包 中 寻找 钥 
匙 的 情况 : 找 不 到 钥匙 的 概率 为 1- pa ， 此 时 需要 等 待 最 小 期 望 时 间 V(f(4,p)) 才 能 
找到 钥匙 ， 因 为 此 时 钥匙 在 4 包 中 的 概率 变 为 /(4,p) ， 男 一 项 对 应 于 先 在 B 包 中 寻 
找 钥 匙 的 情况 . 

这 些 方程 看 起 来 简直 无 从 下 手 , 不 过 很 容易 通过 Matlab 来 求解 . 将 [0,1] 区 间 离 散 
成 Kk 个 子 区 间 ， 在 循环 中 更 新 f(4,p) 和 f(B,p) 的 值 ， 于 是 ， 通 过 更 新 得 到 的 值 是 一 
个 有 限 长 度 的 向 量 大 {V(1/R),V(C2/R)…,V(1)} .在 这 种 离散 情况 下 , 方程 组 (12.9) 可 
以 写成 


V=0(V). 
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其 中 外) 表示 式 (12.9 ) 右 侧 的 式 子 . 这 些 是 不 动 点 方程 . 为 了 求解 , 取 初 始 值 区 =0 ， 


按 下 式 迭 代 : 


= t=0. 


如 果 运 气 比 较 好 的 话 ， 可 以 通过 数学 方法 来 订 
能 够 收敛 到 VV 解 的 情况 如 图 12-6 所 示 ， 其 中 cx 大 


E 明 动态 规划 方程 的 解 ， 即 这 种 算法 
1B 有 不 同 的 取 值 ， 图 中 将 最 佳 的 行 


动 决 策 绘 成 p 的 函数 . 代码 如 图 12-7 所 示 . 在 离散 化 的 方法 中 , 我 们 在 [0,1] 区 间 内 取 


了 K=1000 个 点 并 迭代 了 100 次 . 


. a=0.3; p=0.4 


3 a=0.4; p=0.3 : 
2 - 光 
| 
、 = > > 
在 8B 中 寻找 | 在 4 中 寻找 ”中 在 8 中 寻找 用 在 4 中 寻找 
0 200 400 600 800 0 200 400 600 800 1000 
sion (V(p;A)— V(p;B)) 
图 12-6 式 (12.9 ) 的 数值 解 ( 另 见 彩 插 ) 
名 寻找 钥匙 
区 
ee 
i 
A 
ac = 1- ar 
Be P= 
VV = 100x*oneest{(t, ‘NY Swill Store. the value THncGELOn 
I 
于 区 天 二 协和 全 这 
K{p) = p; 
lend 
A 
AR 
pn 
Le 
Ee 
VEO) SL A or Nr dr 直人 
V(p) = min(VA(p), VB(p)); 
end 
end 
lot (K,V ,KR,sign(VA - VB)) 


图 12-7 解 式 (12.9) 的 Matlab 代码 


12.4 


小 oa 


口 能 够 观测 系统 状态 的 线性 二 次 型 高 斯 控 


出 问 题 
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口 有 噪声 观测 的 线性 二 次 型 高 斯 控制 问题 
口 部 分 可 观测 的 马尔 可 夫 决 策 问题 
重要 方程 与 公式 
线性 二 次 型 高 斯 问题 规范 化 式 (12.1) ~ (122) 
线性 二 次 型 高 斯 问题 求解 U,= gv,Y, 定理 12.1 
有 噪声 观测 y=, + 式 (12.8) 
有 噪声 观测 的 问题 求解 U,=gy,X, 定理 12.2 
部 分 可 观测 的 马尔 可 夫 决 策 问题 将 艺 替换 成 P[X, =xl7"| 12.3 节 


12.5 参考 资料 


Bertsekas 的 Dynamic Programming and Optional Control，Kumar 和 Varaiya 的 


Stochastic Systems: Estimation, Identification and Adaptive Control 以 及 Goodwin 和 Sin 


的 Adaptive Filtering Prediction and Control 都 探讨 了 线性 二 次 型 高 


斯 控制 问题 .前 两 


本 书 也 讨论 了 部 分 可 观测 的 马尔 可 夫 决 策 问题 . 
12.6 练习 


1. 考虑 如 下 系统 
Xn+l1)=0.8X(n)=U(n)+V(n), 7 二 0. 


其 中 X(0) =0， 随 机 变量 Vln) 独 立 同 分 布 于 MX0, 0.2)，U(n) 是 控制 量 . 


(a) 取 U(n)=0，n 宇 0 ， 为 这 个 系统 进行 仿真 . 

(b) 取 N=100， 用 定理 12.1 给 出 的 控制 值 为 系统 仿真 . 
(c) 用 具有 常数 增益 的 控制 量 g = lim g (n) 为 系统 仿真. 
2. 考虑 如 下 系统 


Xn+l)=0.8X(n)=U(n)+V(n), 7 三 0 
Y(n)= XX(n)+W(n), nn 二 0. 


其 中 X(0) = 0, 随 机 变量 Vln) 与 Wn) 相 互 独立 ,Vn)=, MN(0,0.2) 且 W(n)=, MN(0,0). 


(a) 取 o?=0.1 和 o?=0.4， 用 定理 12.2 给 出 的 控制 量 为 系统 仿 


真 


一 


(b) 取 o =0.1 和 o? =0.4 ,用 增益 取 极 限 值 时 的 控制 量 以 及 卡尔 曼 滤 波 右 为 系统 


仿真 . 


不 


EN 
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(c) 比较 上 述 时 变 控制 与 极限 控制 下 的 系统 . 

3. 有 两 枚 硬币 ， 一 枚 均匀 ， 另 一 枚 正面 向 上 的 概率 是 0.6， 只 通过 外 观 是 无 法 分 参 
辨 出 两 枚 硬币 的 . 在 第 2 兰 1 步 ， 你 可 以 选择 抛掷 一 枚 硬币 ， 使 得 正面 向 上 次 数 的 期 
望 值 最 大 . 

(a) 用 部 分 可 观测 的 马尔 科 夫 决策 问题 为 系统 建 模 . 

(b) 仿照 “ 找 钥匙 ”问题 的 解决 步骤 ,将 系统 的 状态 离散 化 ， 写 出 离散 化 的 随机 
动态 规划 方程 . 

(c) 在 Matlab 中 应 用 该 随机 动态 规划 方程 ， 为 得 到 的 系统 仿真 . 
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视野 拓展 : 推断 问题 
补充 : 充分 统计 量 ， 无 限 马 尔 可 夫 链 ， 泊 松 过 程 ， 连 续 时 间 马 尔 可 夫 链 ， 
容量 ,边界 ， 蒜 ， 强 大 数 定理 


我 们 已 经 探索 了 由 实际 应 用 引出 的 一 些 主题 . 现在 , 让 我 们 把 这 


13.1 推 新 闻 题 


我 们 探讨 过 的 一 个 关键 概念 是 推断 . 推断 问题 有 如 下 的 规范 化 描述 : 有 一 对 随机 
变量 (X%, 刃 ， 我 们 希望 根据 观察 到 的 了 来 猜测 艺 . 


[a 
ss 
某 
3 
喜 
n> 
七 
兴 


Pe 


图 13-1 推断 问题 就 是 从 了 的 值 猜测 的 值 


因此 ， 需 要 找到 一 个 函数 g(") 使 得 := g( 妃 在 某 种 精确 的 定义 上 接近 XX 下面 是 
一 些 例子 . 

口 对 是 某 人 的 体重 ,了 是 其 身高 . 

口 X= 1 代表 一 栋 着 火 的 房子 , 没有 着 火 则 和 = 0, 而 了 是 探测 器 量 出 的 CO 浓度 . 
口 XE {0, 1}* 是 发 射 机 发 送 的 比特 串 ，y e RL 可 是 接收 机 接 到 的 信号 . 

口 了 是 一 位 女性 的 基因 组 ， 如 果 她 会 患 某 种 乳腺 癌 则 了 = 1， 反 之 和 = 0. 

口 了 是 描述 一 部 电影 和 一 个 人 的 特性 向 量 , 是 此 人 给 电影 的 评分 . 

口 了 是 某 人 的 脸 部 上 照片， 如果 是 男性 则 X=1， 反 之 =0. 

口 邓 是 一 句 话 ,了 是 麦克 风 接 收 到 的 信号 . 


我 们 在 第 5 章 和 第 7 章 中 已 经 解释 了 一 些 不 同类 型 的 问题 . 
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口 已 知 分 布 : 知道 (X, ) 的 联合 分 布 . 

口 离线 : 观测 一 系列 样本 点 (X, 的 值 . 

口 在 线 : 连续 观测 样本 (xX, 妨 的 值 . 

口 最 大 似 然 估计 : 不 假定 邓 的 先 验 分 布 ， 只 假定 了 在 给 定子 时 的 条 件 分 布 ; 目 
标 是 找到 印 的 值 使 得 观测 值 了 最 可 能 发 生 . 

口 最 大 后 验 估计 : 知道 的 先 验 概率 以 及 了 在 给 定 X 下 的 条 件 分 布 ; 目标 是 找 
到 凶 的 值 ， 使 得 观测 值 为 了 的 可 能 性 最 大 . 

口 假设 检验 : 不 假设 XE {0, 1} 的 分 布 ， 只 假设 了 对 的 条 件 分 布 ; 目标 是 使 正 
确 决 策 X= 1 的 概率 最 大 ， 并 且 保 证 当 X= 0 时， 判定 = 1 的 概率 不 大 于 p. 

口 最 小 均 方 误差 :给 定式 和 了 的 联合 分 布 密度 , 想 要 找到 函数 g( 刀 使 E((X-g(7)》 
最 小 . 

口 最 小 线性 均 方 估计 : 给 定 和 和 了 的 联合 分 布 密度 ， 想 要 找到 线性 函数 xc+p7， 

使 得 E((X-a-bD) 最 小 . 


13.2 充分 统计 量 


推断 问题 中 的 一 个 重要 概念 是 充分 统计 量 . 到 目前 为 止 ， 我 们 还 没有 讨论 过 这 一 
概念 . 现在 让 我 们 来 看 看 它 的 定义 . 
定义 13.1 充分 统计 量 
如 果 对 于 变量 卫 ，h( 站 满足 
frx Ly 1x]= f(A(y), x)e(y), 


另 一 个 等 价 的 描述 为 
fro x Ly 1s,x]= fy ly |s], 
则 称 1 六 是 一 个 郊 的 充分 统计 量 . 0 
我 们 将 这 一 等 价 性 的 证 明 留 给 读者 . 
在 讨论 定义 之 前 ,首先 挖掘 一 下 定义 的 含义 . 如 果 我 们 有 先 验 分 布 f(x) 并 且 想 要 


计算 M4P[XY=]， 则 
MAPLX |Y = y] =arg max fx (x)fyxly |x] 


=arg max fx (x)f (h(y), x)g(y) 
=argmax fx (x)f (A(y),x). 
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所 以 , 使 MAP 最 大 的 是 hy) 的 一 个 函数 . 也 就 是 ， 对 某 一 函数 8()， 有 
MAP[XIY] = g(1())). 
简单 来 说 ， 用 于 计算 M4P[XI 的 了 的 信息 全 部 包含 在 h( 妨 中 . 
同样 ，MZE[ 习 丸 也 是 一 个 h( 六 的 函数 . 同时 ， 我 们 还 注意 到 : 
闫 [x =D ff 80), Wg) 
XIYLXIY 5 


方 (WO) fy (7) 
由 此 可 得 : 
f= FF A) Ve) d= eg) fr FAW), dr 
= 8(7)8(h(»)), 
其 中 ， 
(h(y)) = 全 fx OOF (A(y), Dax 
因此 ， 
Jr 四 -ap 


所 以 ， 在 给 定 了 时 对 的 条 件 密度 只 取决 于 h( 站 .于 是 ， 
E[X|Y]=w(h(7)). 
现在 再 考虑 当 XE {0, 1} 时 的 假设 检验 问题 ， 注 意 ， 
frxly|l] fh09),De(y) 
L 三 = =w(h . 
0 ol A 


所 以 ， 似 然 率 同样 只 取决 于 hGy)， 由 此 推出 假设 检验 问题 的 解 也 是 一 个 (用 的 函数 . 


解释 


充分 统计 量 的 定义 十 分 抽象 . 直观 的 理解 是 ， 如 果 (对 是 充分 的 , 那么 了 是 
关于 1 丸和 一 个 独立 于 并 了 的 随机 变量 Z 的 函数 . 也 就 是 ， 
Y= g(h(7),2). (13.1) 


比如 ,假设 Y= (7i,…, 功 ， 其 中 ,是 依 xE[0, 1] 独 立 同 分 布 的 伯 努 利 随机 变量 . 令 
h(7) = 了 +…+ 六 那么 ,我们 可 以 把 了 想像 成 在 (YY,，…， 世 ) 中 随机 选取 h( 妨 个 等 于 1 
的 分 量 而 构造 出 的 向 量 . 这 一 选择 根据 某 个 独立 随机 变量 Z 完成 . 在 这 种 情况 下 ， 可 
以 看 到 了 中 关于 蕊 的 信息 也 都 包含 在 h( 疙 中 

为 了 理解 这 一 解释 与 定义 之 间 的 等 价 性 ， 首 先 假设 式 (13.1 ) 成 立 . 那么 ， 


第 13 章 视野 拓展 和 补充 (I79 


PLY ~ y|X =x]= PIA(Y) ~ h(y)|X =x]P(g(h(y),2) ~ ») 
= f(h(y),x)8(y), 
所 以 ，h(D) 对 于 半 是 充分 的 . 反 过 来 ， 如 果 h(7) 对 于 针 是 充分 的 ， 则 能 找到 某 个 变量 
Z 使 得 g(40), 刀 等 于 fnewDyIh0)]. 


13.3 无 限 马 尔 可 夫 链 


我 们 学 习 了 在 有 限 空间 = {1, 2, …, N} 上 定义 的 马尔 可 夫 链 ， 接 下 来 探究 无 限 
的 情形 ， 其 中 区 = {0, 1 … 小 
首先 给 定 初始 分 布 = {x02),xE 裕 ,其 中 zx(w)0 且 ,xz(x) = 1. 另外 , 我 们 
还 给 定 了 一 个 非 负数 集合 {P(x, y), x,yE 好 使 得 
>》 Px, 中 = 1,，Vx e 三 


过 


P(X(0)= x0, XD) = 人 (OO =%,) 
=A(Xo) PX, Xm) Xx P(N 1,X,) 


对 于 n 宇 0 和 守 中 的 所 有 xo,，…, x 都 成 立 , 则 序列 {X(n), n 宇 0} 是 一 个 初始 分 布 为 x 的 
马尔 可 夫 链 且 其 概率 转移 矩阵 为 P. 

与 有 限 马 尔 可 夫 链 的 情形 相同 ， 定 义 “ 不 可 约 ” 和 “ 非 周 期 ”的 定义 . 在 之 前 的 
讨论 中 ， 如 果 一 个 有 限 马尔 可 夫 链 是 不 可 约 的 ,那么 它 会 无 限 次 访问 其 所 有 状态 ， 且 
在 每 个 状态 上 花费 的 长 期 时 间 比 例 为 正 数 . 

但 是 当 马 尔 可 夫 链 是 无 限时 ， 上 述 情况 可 能 不 会 发 生 . 为 了 理解 这 一 点 ,考虑 下 
面 的 例子 ( 见 图 13-2). 我 们 有 x(0)=1 和 P(i,i+1)=p(i 宇 1), 且 

Pli+1,i) =1-p=:g=P(0,0), vi. 


Pp Pp Pp Pp 
oA 家 站 
gq gq 4 9 qd 


图 13-2 一 个 无 限 马尔 可 夫 链 


假设 pe (0, 1)， 不 难看 到 马尔 可 夫 链 是 不 可 约 的 . 若 P> 0.5， 可 以 清楚 地 看 到 ， 
当 nw 时 ，X(n) 一 wo. 为 了 说 明 情况 的 确 如 此 ， 令 Zn) 为 独立 同 分 布 随机 变量 ,，P(Z(n) = 
1)=p 且 P(Z(n)=-1)=g. 则 有 
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X(n)=max{X(n-l)+2Z(n),0), 


所 以 
X(N) XO0+ZOD++Zn -1),n0. 


而 且 ， 
Xm) > 工 0+2Z0+…+2ZC-D 
n n 
这 里 的 收敛 由 强大 数 定理 得 到 . 这 意味 着 如 前 所 述 ， 马 一 oo. 
所 以 ，X(n) 最 终 会 比 给 定 的 任何 N 都 大 ， 并 且 会 越 来 越 大 .这 说 明 X(n) 访 问 每 个 
状态 的 次 数 是 有 限 的 . 这 时 称 这 些 状 态 是 瞬 态 的 . 
如 果 一 个 状态 不 是 瞬 态 的 ， 则 称 它 是 递归 的 . 在 这 种 情况 下 ， 如 果 连 续 访问 一 个 
状态 所 间隔 的 平均 时 间 是 有 限 的， 那么 这 个 状态 叫 作 正 递归 ; 否则 叫 作 零 递归 . 
下 面 是 与 定理 1.2 相对 应 的 结果 . 
定理 13.2 无限 马尔 可 夫 链 大 定理 


考虑 一 个 无 限 马尔 可 夫 链 . 

(a) 如 果 该 马尔 可 夫 链 是 不 可 约 的 ,其 状态 可 能 是 全 瞬 态 、 全 正 递 归 或 者 
全 零 递归 . 在 这 些 情 况 下 ,分 别称 马尔 可 夫 链 是 瞬 态 的 、 正 递归 的 和 零 递 归 的 . 

(b) 如 果 该 马尔 可 夫 链 是 正 递归 的 ， 它 会 有 唯一 的 稳 态 分 布 ,其 中 x(2?) 
是 Xln) 等 于 i 的 长 期 时 间 比 例 . 

(c) 如 果 该 马尔 可 夫 链 是 正 递归 的 、 非 周期 的 ， 那 么 X(n) 的 分 布 zi 收敛 
x 

(d) 如 果 该 马尔 可 夫 链 不 是 正 递归 的 ， 则 其 没有 不 变 分 布 且 在 任何 状态 
停留 的 时 间 比 例 趋 于 0. 


> E(Z(n)) > 0， 


对 于 图 13-2 的 马尔 可 夫 链 ，P = 0.5 时 是 零 递 归 的 ，P < 0.5 时 是 正 递归 的 . 在 后 
一 种 情况 中 ， 稳 态 分 布 是 


Xi)=(1-p)p',i 之 0， 其 中 p= 全. 
qd 


李 雅 善 诺 夫 - 福 斯 特 准 则 
这 是 一 个 非常 有 用 的 判断 正 递归 的 充分 条 件 . 
定理 13.3” 李 雅 普 诺 夫 -- 福 斯 特 准则 
令 X(n) 为 一 个 定义 在 无 限 状态 空间 上 的 不 可 约 马 尔 可 夫 链 . 假设 存在 
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非 负 函 数 瑚 区 一 [0, co) 使 得 
ELIFCC(O+D)-FCXCOD)XGOD) =x] -a+ ple 4, 
其 中 4 为 一 有 限 集 ，a>>0 且 >0; 则 该 马尔 可 夫 链 是 正 递归 的 .函数 

矿 叫 作 马 尔 可 夫 链 的 李 雅 普 诺 夫子 数 . 

这 种 情况 意味 着 , 当 X(n) 在 某 有 限 集 4 外 时 , 李 雅 善 诺 夫 函数 平均 减 量 至 少 为 a. 这 
一 结果 表明 马尔 可 夫 链 是 正 递归 的 ,原因 如 下 : 由 于 李 雅 普 诺 夫 函 数 是 非 负 的 , 不 可 能 
一 直 递 减 ， 所 以 它 在 有 限 集 4 内 停留 的 时 间 比 例 必然 为 正 数 . 根据 大 定理 可 知 ， 这 意 
味 着 它 是 正 递归 的 . 


13.4 淘 松 过 程 


泊 松 过 程 在 应 用 概率 论 中 是 一 个 重要 模型 . 它 能 很 好 地 近似 数据 包 到 达 路 由 器 的 
过 程 、 电 话 呼叫 的 到 来 、 新 TCP 连接 的 产生 以 及 收银 台 处 顾客 的 出 现 . 


13.4.1 定义 


我 们 从 泊 松 过 程 的 定义 开始 讨论 ( 见 图 13-3 ). 
定义 13.4” 泊 松 过 程 


令 4> 0 且 {51,S2,…} 为 Exp(4) 的 独立 同 分 布 随机 变量 ， 又 令 也 = 
Sit+…++S,，N 宇 ]. 定义 


N, =max{n 宇 1|7, 入 小 ,二 0， 


其 中 , 当 !< 九 时, V=0. 则 N := {Nt1 宇 0} 是 一 个 参数 为 和 4 的 泊 松 过 程 .了 7， 
是 NN 的 第 nn 个 跳跃 的 时 间 . 0 


pi 
对 司 | 
2 - 
> 由 ; 
SI1 2 S31 | Ss 
0 7 + ? : , > 1 
0 Ts Ts 


图 13-3” 泊 松 过 程 : 跳 转 之 间 的 时 间 5, 是 参数 为 4 的 独立 同 分 布 指数 随机 变量 
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13.4.2 独立 自 增 量 


在 探讨 泊 松 过 程 的 性 质 之 前 ， 我 们 先 来 回顾 指数 分 布 的 两 个 性 质 . 
定理 13.5 ”指数 分 布 的 性 质 


令 z 为 指数 分 布 参数 为 4> 0 的 变量 ， 则 ， 


五 (=Pz 乏 加 =1-exp{-41, 过 0. 


对 于 1 过 0，r 的 分 布 密度 函数 为 AD =4exp{f-41. 且 EaD=4，varn= 
4 那么 ， 我 们 有 
PIr>t+slr>s]= P(r >t). 


这 是 指数 分 布 的 无 记忆 性 质 
同时 ， 


Plr<t+elr>1]=As+o(e). 


证 明 
P(tr>t+5) 
P(r > s) 
_ exp{~A(1+5)} _ 
exp{—As} 
=P(rS » 


Plr >t+s|r >s]= 


exp{—Az} 


NM 


(RE TT Ts 


图 13-4 ”给 定 该 过 程 到 时 刻 t 前 的 情况 ， 时 刻 t 以 后 的 跳跃 过 程 构成 了 一 个 泊 松 过 程 

该 性 质 的 解释 是 ， 如 果 一 个 灯泡 的 使 用 寿命 是 指数 分 布 的 ， 那么 一 个 旧 的 灯泡 和 
一 个 新 的 灯泡 完全 一 样 ( 只 要 它 还 亮 着 ). 

下 面 根据 这 个 性 质 用 严格 的 推导 证 明 泊 松 过 程 也 是 无 记忆 的 . 
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定理 13.6” 泊 松 过 程 的 无 记忆 性 


令 NV := {Ni 1 宇 0} 是 一 参数 为 和 的 泊 松 过 程 ， 固定 1>0, 给 定 {N,, s 三 人 }， 
过 程 {Ni 一 和 Ni, s 宇 0} 是 参数 为 4 的 泊 松 过 程 . 

因此 ， 该 过 程 有 稳定 独立 的 增 量 ， 也 就 是 ， 对 于 任意 0 入 Hi<bp< …， 泊 
松 过 程 的 增 量 { NM ，- N, ,n 之 1} 是 独立 的 ， 且 分 布 N， 一 NN, 只 取决 于 ii-b 


证 明 
13-4 阐明 了 这 一 结果 . 给 定 {N;, s} ,第 一 次 跳跃 {Ns 一 Ni, s 宇 0} 的 时 间 是 ExpW)， 
可 从 指数 分 布 的 无 记忆 性 得 出 . 接 下 来 的 跳跃 次 数 是 独立 同 分 布 随机 变量 ， 服 从 参数 


为 4 的 指数 分 布 ， 这 就 证 明了 该 定理 . a 
13.4.3 跳跃 次 数 

我 们 有 下 面 的 结论 . 

定理 13.7 ”跳跃 次 数 是 泊 松 分 布 


NN := {Ni 0} 是 参数 为 4 的 泊 松 过 程 . 那么 和 N, 服 从 均值 为 141 的 泊 松 分 布 . 


证 明 
有 很 多 证 明 这 一 结论 的 方法 ， 其 中 的 标准 方法 如 下 . 注意 到 ， 
P(N,,, = = P(N, =n)( -4s)+P(N, =n-D)As+o(e). 


因此 ， 


TPN n) = AP(N, =n -1)—AP(N, =n). 


从 而 得 到 


SPN, =0)=—AP(N, =0). 


初始 条 件 PCV = 0) = 1， 得 到 对 于 1 宇 0，P(N,= 0)=exp{-4 丰 .现在 ,假设 
P(N,=n)= g(n,t)exp{-At},n 二 0. 


那么 上 面 的 微分 方程 变 为 


Sg Dexpt j]= Ag(n—L)-g(nD]exp{-Ad), 
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也 就 是 » 
La 
dt 


由 递归 可 得 g(n,D) -CD 


nl 
另 一 种 证 明 用 到 了 跳跃 的 密度 . 如 前 述 定 义 ， 令 7, 为 该 过 程 的 第 n 次 跳跃 时 间 ， 
并 令 5,=7-7,1， 那么 ， 
P(T elti,t +dt),*…, T, el(t,,t, +dt,),T,, >7) 
= P(S el(tit +dt),,S, elt, -t,t -t,t+dt,),S,, >t-1,) 
=Aexp{—At}dtAexp{—A(t, 一 dt,*exp{—A(t —1,)} 
=A"dt…dt, exp{—At}. 
为 得 到 这 个 表达 式 ， 我们 用 到 了 5, 是 服从 Exp(4) 的 独立 同 分 布 随 机 变量 ， 上 式 告 
诉 我 们 ， 如 果 已 知 [0, 可 之 间 有 n 次 跳跃 ， 则 它们 出 现在 区 间 任 一 位 置 的 可 能 性 相 
等 . 而且， 


P(N, =n)= | A'dti…dt, exp{—At\, 


其 中 ,，S= {,，…, 0 < 在 < … < 刀 < 办 现在， 注意 到 5 是 [0, 中 对 应 次 数 4 按 特 
定 顺序 排列 的 子 集 . 一 共有 n! 个 顺序 ， 且 由 对 称 性 可 知 ， 每 一 个 顺 次 对 应 于 [0, 辣 中 
相同 大 小 的 子 集 ， 所 以 ,5 的 大 小 为 ?Wn!. 我 们 可 以 得 出 


P(N, =n) = Nexpt{ 外， 
i 


从 而 证 明了 这 一 结果 . < 
13.5 连续 时 间 马 尔 可 夫 链 


前 面 已 经 学 习 了 离散 时 间 马 尔 可 夫 链 {X(n), n=0, 1,2,…}. 在 这 一 节 , 我 们 要 对 
连续 时 间 的 情况 的 主要 思想 进行 概述 . 

设 为 一 可 数 的 或 有 限 的 集合 . 我 们 定义 过 程 {1 1 二 0} 如 下 : 给 定 一 个 定义 在 区 
上 的 概率 分 布 x 和 速率 矩阵 O= {20, 站 DJE 和 如 
定义 ，O 满足 


QO(i,)) 0,vi#j 2, 00,))=0, vx. 
定义 13.8 连续 时 间 马 尔 可 夫 链 


如 果 过 程 人 Xi, 1 三 0} 满 足 POR = 方 = A( 站 以 及 
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PIX,,, = j|X,=i,X,,u<t]=1{i= jj}+eQ(i,))+o(e). 


则 称 其 为 初始 分 布 为 习 速率 矩阵 O 的 连续 时 间 马 尔 可 夫 链 . 0 


这 个 定义 意味 着 该 过 程 从 状态 i 跳 到 产 的 概率 在 s <1 个 时 间 单 位 内 为 OG 
万 E. 所 以 ，O(i, 门 是 每 个 时 间 单 位 内 从 i 跳 到 j 的 概率 . 注意 到 ,这 些 表达 式 对 j 求 和 


得 1 


下 面 是 一 种 构建 这 种 过 程 的 方法 . 假设 钱 = 守 选取 一 个 指数 分 布 的 随机 时 间 r*， 其 
速率 gQ@) = -00, 人 .在 时 间 +z 处 ,该 过 程 跳 跃 到 状态 ?的 概率 对 产 为 工 位 六 = 020, Pa 
因此 ,车 五 = i， 概 率 铸 ,,。 =j 就 是 过 程 在 (t, tt ) 中 跳跃 的 概率 ， 等 于 g(i)e ， 乘 
以 接 下 来 跳 到 7 的 概率 ， 也 就 是 二 疙 .所 以 ， 
PLX = |X, =1= gDe SED -OG, pe, 
q(i) 
误差 为 o(e )， 因 此 ， 这 一 构造 能 得 出 正确 的 转换 . 


2045 “全 | Le 


Exp(qgU)) 
占用 时 间 独 立 于 过 去 的 轨迹 


图 13-5 ”构建 连续 时 间 马 尔 可 夫 链 


下 面 是 与 定理 13.2 相对 应 的 结论 . 这 里 “不 可 约 ” 的 定义 与 前 面 一 样 . 同时 , 在 
连续 时 间 情 况 下 ， 没 有 周期 的 概念 . 
定理 13.9 连续 时 间 马 尔 可 夫 链 大 定理 


考虑 一 个 连续 时 间 马 尔 可 夫 链 . 

(a) 如 果 该 马尔 可 夫 链 是 不 可 约 的 ， 其 状态 可 能 是 全 瞬 态 、 全 正 北 归 或 
者 全 零 递归 ， 分 别称 这 个 马尔 可 夫 链 是 肯 态 的 、 正 递归 的 和 零 递 归 的 . 

(b) 如 果 该 马尔 可 夫 链 是 正 递归 的 , 它 会 有 唯一 的 稳 态 分 布 x,， 其 中 z(D 
是 且 等 于 i 的 长 期 时 间 比 例 . 而 且 ， 马 尔 可 夫 链 且 在 状态 i 的 概率 元 个 收 敛 
于 zx(2). 

(c) 如 果 该 马尔 可 夫 链 不 是 正 递归 的 ， 则 其 没有 稳 态 分 布 且 在 任何 状态 
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停留 的 时 间 比 例 都 趋 于 0. 


13 .0 


二 元 对 称 信 道 的 容量 


考虑 一 个 出 错 概率 为 PE(0, 0.5) 的 二 元 对 称 信道 . 因为 发 射 机 发 送 的 每 一 个 比特 


都 有 可 能 出 错 ， 所 以 信道 不 可 能 完全 可 靠 . 不 论 发 送 端 传送 什么 ， 接 收 机 都 无 法 确定 


它 接收 到 的 信息 是 正确 的 . 


尽管 如 此 , 我 们 还 是 可 以 达到 一 个 很 小 的 出 错 率 . 比如 , 不 妨 设 p=0.1， 并 通过 重 
复 和 次 来 传送 一 个 比特 ,其 中 入 > 1. 接收 机 收 到 这 个 比特 后 采用 多 数 译 码 ， 也 就 
是 说 ， 如 果 它 收 到 的 0 多 于 1， 就 判断 发 送 机 发 送 的 是 0， 反 之 则 为 1. 通过 选取 很 大 


的 NW, 出 错 率 可 以 变 得 任意 小 . 


的 速率 是 IIV. 这 似乎 意味 着 ， 
幸运 的 是 ， 


于 这 种 方法 每 经 过 N 步 才 传送 一 个 比特 , 所 以 该 信道 
为 了 实现 很 小 的 出 错 率 ， 我 们 必须 牺牲 速率 . 
这 种 悲观 的 结论 是 错误 的 . 在 20 世纪 40 年 代 ， 克 劳 德 ， 香农 揭示 了 


信道 可 以 用 比 Cp) 小 的 任意 速率 传送 信息 ， 其 中 ( 见 图 13-6 )， 


C(p)=1-H(p), H(p)= -plog, p—(1—p)log,(l—p), 
且 对 于 任意 > 0， 传 输 的 出 错 概率 小 于 se . 


(13.2 ) 


图 13-6 ”二 元 对 称 信道 的 容量 Clp) 的 出 错 概率 为 p 


比如 , C(0.1) = 0.53. 现在 选 定 一 个 比 C(0.1) 小 的 速率 , 如 R= 0.5. 选择 任意 s> 0， 
设 z=10*. 那么 我 们 能 用 速率 R=0.5 来 传送 比特 ， 且 每 个 比特 的 出 错 概率 小 于 10. 选 


择 s== 10 一 时 也 成 立 : 可 以 用 同样 的 速率 尺 来 传送 ,上 且 出 错 概率 小 于 10 一 . 实际 使 用 


的 传输 机 制 取 决 于 es , 当 & 更 小 的 时 候 规则 会 变 得 更 复杂 ; 但 是 速率 不 取决 于 . 这 
个 结论 很 惊人 ! 不 用 说 , 它 让 之 前 忙于 设计 各 种 基于 直觉 的 传送 方案 的 工程 师 们 困惑 


不 已 . 
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图 13-7 克 劳 德 . 香农 (1916 一 2001 ) 


香农 最 重要 的 见解 是 ， 长 序列 是 很 典型 的 . 在 如 马尔 可 夫 链 或 者 独立 同 分 布 随机 
变量 的 序列 中 ， 存 在 一 个 统计 上 的 规律 性 ， 且 该 规律 性 在 长 序列 中 尤为 明显 .比如 ， 
多 次 抛掷 一 枚 有 偏差 的 硬币 ， 假 设 P( 正 面 朝 上 ) = 0.1， 观 察 到 的 序列 很 可 能 有 10% 的 
正面 . 而 许多 其 他 的 序列 几乎 不 可 能 出 现 , 你 几乎 看 不 到 . 所 以 , 实际 可 能 出 现 的 长 序 
列 相对 来 说 很 少 . 在 这 个 例子 中 , 当 P( 正 面 朝 上 )= 0.1 时 , 尽管 抛掷 次 硬币 有 M= 2 
个 可 能 出 现 的 序列 , 但 是 只 有 大 概 VM 个 是 典型 的 . 而 且 , 由 对 称 性 可 知 ， 所 有 这 些 
典型 序列 以 等 概率 出 现 . 正 是 这 个 原因 使 得 二 元 对 称 信道 的 错误 模式 相对 较 少 . 不 妨 
设 每 N 次 传送 仅 有 4 种 可 能 的 错误 模式 . 那么， 每 个 长 度 为 V 的 比特 串 会 对 应 于 4 
个 可 能 接收 到 的 输出 串 : 每 个 典型 错误 对 应 一 个 序列 . 因此 ， 可 以 为 发 送 机 选择 B 个 
长 度 为 N 的 输入 串 使 得 其 中 每 一 个 输入 串 对 应 的 4 个 输出 串 都 不 同 . 然而 , 有 人 也 许 
会 担心 ， 由 于 想 让 输出 串 的 集合 不 同 ， 选 择 这 B 个 输入 串 会 很 困难 . 

然而 ,香农 注意 到 ， 这 一 目标 可 以 通过 完全 随机 地 选取 输入 串 来 实现 . 香农 的 方 
案 如 下 . 选取 一 个 较 大 的 N， 然 后 通过 抛 一 枚 均匀 的 硬币 N 次 来 随机 选取 B 个 NN 比 
特 的 字 串 . 记 这 些 输入 串 为 Xi，…, Xe, 称 为 码 字 . 令 5 为 对 应 于 输入 Xi 的 4 个 典型 
输出 的 集合 . 令 歼 为 对 应 于 输入 已 的 输出 . 由 信道 的 对 称 性 可 知 ， 苞 是 一 个 均匀 硬 
币 的 抛 搓 序列 .所 以 ,每 个 巧 为 都 以 相同 的 概率 等 于 冯 个 可 能 输出 字 串 中 的 某 一 个 .其 
中 多 落 在 51 中 的 概率 为 4/2*， 实际 上 ， 

P(Y, eS 或 了 eS.… 或 Fe Si) BxA2™. 


在 上 述 不 等 式 中 , 用 到 了 事件 集合 的 概率 不 大 于 其 概率 之 和 的 性 质 . 我 们 下 面 会 
解释 4= 2 四 所以， 如 果 选 择 刀 = 2 准 ， 可 以 看 到 上 式 的 P 小 于 等 于 


SR x 2 NH(P) x DN 


同时 ， 如 果 
R+H(p) <1, BR< CP):= 1-HO), 


那么 当 X 增 大 的 时 候 ， 这 一 数值 趋 近 于 0. 
所 以 ,如 果 不 选 择 过 多 的 码 字 ,接收 机 出 错 的 概率 可 以 忽略 . 同时 注意 到 B=2™ 
等 同 于 在 入 步 内 传送 NR 个 不 同 的 比特 ， 因 此 传送 速率 为 R. 
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公 个 输出 串 


5) 对 应 关 个 标准 
2 输出 串 


对 应 XX 的 4=2™(p) 
个 标准 输出 串 


图 13-8 ”由 于 码 字 为 随机 选取 的 ， 一 个 码 字 产生 另 一 个 码 字 上 典型 输出 的 概率 为 42 


接收 机 要 如 何 识别 发 射 机 发 送 的 比特 串 呢 ? 思 想 是 把 8 个 输入 串 ( 码 字 ) 的 列表 
给 接收 机 当 接 收 机 接收 到 一 个 串 ， 它 从 列表 中 寻找 与 其 最 相近 的 串 . 这 个 找到 的 字 
串 非 常 可 能 就 是 发 送 机 传送 的 字 串 . 

我 们 还 需要 解释 为 什么 4 = 2%W. 幸运 的 是 , 这 个 结果 可 以 简单 地 由 强大 数 定理 
推出 . 令 X = {X(n), n= 1,…, 人 为 独立 同 分 布 随机 变量 ,其 中 P(X(n)= 1)=p 且 P(X(n) 
=0)= 1-p. 对 于 一 个 给 定 的 序列 x= (x(1), …, x(N))E {0, 1}”, 令 


wy (x) := log(P(X = x)). (13.3) 
注意 到 ， 通 过 令 |x|= 》 x(n) ， 有 


y(x)= log(p” (Pr-) 


|x| N-|x| 


on log,(1—p). 


所 以 ，X 比特 的 随机 串 怀 使 得 


vy(X)= 区 Bos ps 


一 全 |iog, (lp). 


强大 数 定律 可 知 ， 当 N 王 w 时 ，|XI/N 一 p， 因 此, 对 于 N > 1， 
wy(X) ~ plog,(p) + (1 - plog,(l - p) = -H(p). 


这 一 计算 告诉 我 们 ,对 于 站 可 能 取 值 的 任意 序列 x, w (x) 的 值 都 相同 . 由 式 ( 13.3 ) 
可 得 , 这 意味 着 所 有 可 能 的 序列 x 几乎 有 相同 的 概率 2 中. 我 们 概括 这 一 现象 如 下 : 
存在 2? 个 等 概率 的 典型 序列 ， 所 以 ，4 = 2 0 
回顾 一 下 高 斯 信道 的 最 大 似 然 估计 检测 规则 ,满足 下 述 条 件 时 ,信道 变 为 二 元 对 
称 信 道 
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p=p(o°):= P(N(0,0)>0.5). 


于 是 ,可 以 计算 出 容量 Cp(o”))， 它 是 噪声 标准 偏 移 量 o 的 函数 . 图 13-9 显示 出 了 结果 . 

香农 在 信道 容量 和 可 达 传 输 速率 上 得 到 的 结果 对 于 通信 系统 的 设计 具有 深远 的 
影响 . 突然 间 , 工程 师 们 有 了 目标 , 知道 自己 的 系统 离 可 实现 的 最 佳 速率 还 差 多 远 . 香 
农 的 编码 机 制 尽管 并 不 实用 ， 却 为 信道 编码 设计 提供 了 重要 的 见解 . 香农 的 信息 论 展 
现 了 深 恰 的 理论 如 何在 工程 领域 引起 一 场 革命. 


1 
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13-9 在 附加 噪声 .M0, 四) 下 的 二 元 对 称 信道 的 容量 .检测 器 采用 最 大 似 然 估计 


香农 另 一 个 重要 的 工作 是 关于 随机 事物 的 编码 . 比如 ， 编 码 一 本 500 页 的 书 要 用 

多 少 比特 ? 在 这 里 ， 典 型 性 再 次 发 挥 了 重要 的 作用 . 例如， 我 们 知道 编码 一 个 抛掷 N 

次 偏差 率 为 P( 正 面 朝 上 ) =p 硬币 的 字符 囊 只 需要 NH) 比特 , 因为 这 是 典型 序列 所 需 

要 的 比特 数 . 在 这 里 , Hlp) 叫 作 抛 硬币 的 粹 . 类 似 地 , 如 果 {X(n), n 宇 1} 是 一 个 不 可 约 、 

有 限 且 非 周期 性 的 马尔 可 夫 链 ， 并 具有 稳 态 分 布 x 和 状态 转移 矩阵 PGi, 旋 . 那么 , 我 
们 大 致 需要 ME) 比特 来 对 {XD)，… XN)} 进 行 编码 ， 其 中 
H(P)=-2,7()2, PC 六 log: PC, )) 


叫 作 马尔 可 夫 链 的 粒 率 . 一 个 名 为 Liv-Zempel 的 实用 压缩 机 制 基本 上 可 以 实现 这 一 极 
限 . 这 也 是 大 多 数 文件 压缩 算法 ( 比如 ，ZIP ) 的 基础 . 

香农 还 将 信道 容量 和 源 编码 两 个 想法 结合 起 来 ， 这 个 结果 就 是 克 劳 德 ， 香 农 的 分 
离 定 理 . 我 们 用 下 面 的 例子 来 解释 其 信 源 信道 编码 的 结果 . 考虑 由 马尔 可 夫 链 生成 的 
言 号 X(n) 通 过 一 个 二 元 对 称 信道 传输 .那么 最 快 的 速率 能 达到 多 少 ? 答案 是 
Cl(p)/H(p). 这 个 结果 可 以 这 样 理解 : 描述 每 一 个 符号 要 用 Hlp) 比 特 ， 而 二 元 对 称 信道 
可 以 在 每 个 时 间 单 位 传送 C(p) 比 特 . 而且 ,为 了 达到 这 一 速率 ,我 们 先 对 信 源 进行 纪 
码 ， 然 后 单独 选择 二 元 对 称 信道 的 编码 ， 最 后 一 起 运用 . 所 以 ， 信 道 编码 不 依赖 于 信 
源 编 码 ， 反 之 亦 然 . 
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13.7 概率 界 


下 面 讲解 如 何 运用 切 比 雪夫 不 等 式 、 切 尔 诺 夫 不 等 式 和 高 斯 估计 来 得 出 概率 的 佑 
计 值 . 这 些 方法 同时 也 告诉 我 们 相应 事件 发 生 的 可 能 性 . 这 些 方法 的 重要 之 处 在 于 ， 
它们 可 以 应 用 于 分 析 非 常 复杂 的 情况 . 


图 13-10 赫 尔 曼 : 切 尔 诺 夫 (1923 一 ) 
定理 13.10 “马尔 可 夫 、 切 尔 诺 夫 和 詹 森 不 等 式 


令 碟 为 随机 变量 ， 那 么 我 们 有 
(a) 马尔 可 夫 不 等 式 : 设 侯 ) 为 非 减 的 正 函 数 ， 则 


PA>0)< "fe (13.4 ) 
妹 


(b) 切 尔 诺 夫 不 等 式 : 对 于 所 有 0> 0， 有 
P(X a)< E(exp{0(X -a)}). (13.5) 
(c) 麻 森 不 等 式 : 设 凡 ) 为 凸 函 数 ， 则 
f(E(X) < E(f(X)). (13.6) 


13-11 乔 汉 : 詹 森 (1859 一 1925 ) 
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这 一 定理 的 证 明 很 简单 ， 如 下 . 
证 明 
(a) 因为) 是非 减 的 正 函数 ， 所 以 


1{X 宇 a} 二 A 
f (a) 


两 边 同时 取 期 望 即 可 得 到 式 (13.4 ). 
(b) 不 等 式 (13.5 ) 是 马尔 可 夫 不 等 式 ( 13.4 ) 的 特殊 情况 , 取 /0X) = exp{0X}, 0>0. 
(c) 设 太 ) 为 凸 函数 ， 即 它 在 其 所 有 切线 之 上 ， 

f(X)/(E(X)+f (EXNX -EX)), 


如 图 13-12 所 示 . 现在 对 两 边 同时 取 期 望 即 得 不 等 式 (13.6). 
fy SR 


a 本 

7 @— by 1 
“个 EY 

FEN + a{x — E(X)) 


图 13-12 同 函 数 ) 在 其 所 有 切线 之 上 ， 所 以 也 在 ECD) 处 的 切线 之 上 ， 从 而 得 到 镶 森 不 等 式 
概率 界 在 多 址 复 用 中 的 应 用 | 


回顾 前 面 介绍 的 多 址 复 用 问题 . 存在 N 位 相互 独立 的 用 户 ， 每 位 用 户 传输 的 概率 为 
Pp. 因此 ， 在 线 用 户 的 数目 Z 服 从 BOV,p) 分 布 .我 们 想 要 找到 值 m, 使 得 P(Z 宇 m) = 5%. 
第 一 种 估计 m 的 方法 运用 切 比 雪夫 不 等 式 (2.2 )， 即 


var(v) 
E 


PUv-EO)P> 竖 


若 Z=BVD, 则 EDOD=N 且 varD =N(-. 由 于 v= B(100, 0.2), 我 们 得 到 E(v)= 20 
且 var(W) = 16. 由 切 比 雪夫 不 等 式 可 得 


Po-20> 本 < 总 


人 参见 附录 A. 
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我 们 有 理由 认为 v 的 分 布 在 其 均值 附近 几乎 是 对 称 的 ， 如 图 3-4 所 示 . 所 以 ,我 们 
得 到 


8 
a 
现在 要 选择 m= 20+s, 使 得 P(v > 内 友 5%. 这 意味 着 我 们 要 选择 s, 使 得 8/e? = 5%. 所 
以 , s=13, m=33. 由 切 比 雪夫 不 等 式 , 可 以 认为 不 会 有 超过 33 名 用 户 同时 在 线 . 那 
么 在 设计 网 络 的 时 候 ， 可 以 选择 C 使 得 C/33 是 一 个 能 让 用 户 满 意 的 速率 . 
第 二 种 方法 运用 切 尔 诺 夫 不 等 式 (13.5 )， 也 就 是 
Pv 宇 Na)< E(exp{0(v— Na)}), v0 >0. 
为 了 计算 右边 的 大 小 ， 我 们 注意 到 ， 如 果 Z = BN, p)， 那 么 可 以 将 Z 写 作 Z= XR1) + 
X(N)， 其 中 X(n) 是 独立 同 分 布 随机 变量 目 P(X(n)= 1)=p，P(X(n)=0)= 1-p， 因 此， 
E(exp{0Z}) = E(exp{0X(l)+:*……+0OX(N)}) 
= E(exp{0X(1)}x.…xexp{0X(N)}). 
我 们 还 注意 到 ， 由 于 X(n) 相 互 独立 ， 随 机 变量 exp{0X(n)} "也 相互 独立 ， 而且， 独立 
随机 变量 之 积 的 期 望 等 于 它们 期 望 的 乘积 ( 见 附录 A )， 因 此 ， 
E(exp{02}) = E(exp{OX(1)})x:x E(exp{0X(N)}) 
= E(exp{OX(1)})” =exp{NA(O)} 


Po - 20 > 8) < 


在 上 式 中 ,我 们 定义 
A(0)=1og(E(exp{0X(D})). 
因此 ， 由 切 尔 诺 夫 不 等 式 可 得 
P(Z>Ndo) 乏 exp{INA(O)}exp{ONMa} 
=exp{N(A(0)- 0a)} 
由 于 不 等 式 对 于 任意 0> 0 都 成 立 ， 我 们 将 右边 看 作 9 的 函数 并 寻找 其 最 小 值 . 定义 
A’“ (a) = max{0a —A(O)}. 


那么 ， 
P(Z > Na) < exp{—-NA’ (a)}. (13.7) 


图 13-13 展示 了 p= 0.2 时 该 函数 的 状态 . 


@ 实际 上 ， 独 立 随机 变量 的 函数 也 是 独立 的 ， 见 附录 A. 
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站 


2 022 D24 026 028 03 032 034 
pa 6 


让 
2 
/ FF 


图 13-13 ”许多 在 线 用 户 概 率 界 的 对 数 的 入 信 ， 即 A 
现在 来 计算 A(9) 和 A*(a) .我 们 得 到 


E(exp{0X(1)})=1- p+ pe,, 
A(0)=log( -p+ pe’) 


人“(a) = max{0a —log(l— p+ pe’)}. 


对 其 求 导 并 对 9 的 偏 导数 取 零 ， 我 们 发 现 


0 

a= 一 -一 一 一 (pe 让)， 

人 ) 
oo 40-7) 
(=-9)P 


后 将 其 带 回 A (ao) ， 得 到 


No =alos| 4 (1 ose) we>z 
p l-p 


回 到 我 们 的 例子 ,希望 找到 值 m= Na 使 得 


P > Na) = 0.05. 
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运用 式 (13.7 )， 需 要 找到 Na 使 得 
exp{—NA’ (a)} = 0.05 = exp {log(0.05)), 


也 就 是 ， 


~ 0.03. 


二 | 


参照 图 13-13 ， 可 以 得 到 a= 0.30. 这 对 应 于 m=30. 所 以 , 切 尔 诺 夫 的 估计 告诉 我 们 
Plv > 30) < 5%. 我 们 可 以 依据 这 一 结果 来 规划 网 络 的 容量 . 
还 能 看 到 ， 上 面 的 计算 说 明 切 尔 诺 夫 界 也 可 以 写作 
P(B(N, p) = Na) 
P(B(N,a) = Na) 


P(Z > Na)< 


13.8 款 


蒜 代 表 一 个 人 玩 公平 投机 游戏 时 的 财富 值 . 在 这 种 游戏 中 ,， 盘 利 的 期 望 值 永远 是 
0. 一 个 简单 的 例子 是 以 0 为 步 长 均值 的 随机 游 走 . 蒜 是 很 好 的 噪声 模型 ， 同 时 也 能 
很 好 地 对 依 期 望 值 衰减 的 过 程 进 行 建 模 ( 比如 ， 股 票 市 场 )， 贺 理论 最 早 由 杜 步 提出 
[Doob, 1953]. 

和 慕 有 一 个 重要 的 性 质 ， 就 是 将 强大 数 定理 进行 了 扩展 : 一 个 期 望 值 有 界 的 靳 几乎 
必然 收敛 . 这 一 结论 可 以 用 于 说 明 随 机 过 程 的 浮动 会 消失 ， 最终 收敛 于 其 平均 值 . 随 
机 梯度 算法 的 收敛 性 以 及 用 微分 方程 近似 随机 过 程 的 方法 均 是 由 该 定理 得 来 . 


13 86l “着 尺 
当 某 人 玩 投机 游戏 时 ， 令 总 为 时 间 n 三 0 时 该 玩家 的 财富 . 如果 该 游戏 满足 
E[X,, |X¥"]=X,, vn 二 0. (13.8 ) 
则 认为 游戏 是 公平 的 . 


在 这 个 表达 式 中 , 和 = {V6,m 志 n}. 因此 , 在 一 个 公平 的 游戏 中 , 没有 人 能 指望 
自己 的 财富 增加 .由 满足 这 一 性 质 的 随机 变量 构成 的 序列 {X;, n 二 0} 为 著 . 

上 述 定义 可 以 扩展 到 当 玩 家 还 拥有 其 他 额外 信息 但 是 仍然 无 法 增加 自己 财富 的 
情况 . 比如 , 不妨 设 额外 信息 是 为 一 个 随机 变量 ,的 值 . 根据 这 个 思路 ,可 以 得 到 下 
面 的 定义 . 

定义 13.11 蒜 、 上 蒜 、 下 款 


车 
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E[X,, |X",Y"]=X,, vn 二 0, ( 13.9) 


则 随机 变量 序列 { 且 , n 宇 0} 是 对 于 { 卫 , 了 , n 宇 0} 的 一 个 闭 ， 其 中 视 = {XY,, m 二 
n}, Y= {7, mn}. 


如 果 (13.9 ) 中 的 ”= ” 换 为 “<” 后 仍 成 立 , 则 名 是 上 拷 ; 如 果 “=” 


换 为 “二 ”后 仍 成 立 ， 则 ,是 下 著 . 0 


在 很 多 情况 下 ,我 们 并 不 指明 随机 变量 已 ， 而 只 是 说 成 是 一 个 款 、 上 款 或 下 蒜 . 
如 果 马 是 一 个 粗 ， 那 么 


E(X,)=E(X,), vn>0 


事实 上 ， 由 条 件 期 望 的 重 期 望 公 式 ( 见 定理 7.7 ) 得 到 ER = E(ELY,|Xo, 了 7]). 


13.8.2 示例 


下 面 来 看 一 些 蒜 的 例子 . 


1. 


随机 游 走 


设 {Zo >0} 为 期 望 为 零 的 独立 随机 变量 . 那么 ， 对 于 n 宇 0，%,:= Zot…+2 是 一 


个 蒜 ， 


且 


EL] 去 ElZot***+Zt ZnlZo, 2 Zn] 二 Z0T… 十 Z 三 和 


注意 到 ,者 E(Z,)0， 那 么 五 是 一 个 上 著 ; 如 果 术 ZD)=0,， 那 么 马 是 一 个 下 款 . 


2. 


乘积 


邻 {Z,,n 三 0} 为 均值 为 1 的 独立 随机 变量 . 那么 ,对 于 za>>0,， 浆 := 2Z0x…x2 是 一 
个 款 . 事实 上 ， 


E[XnlX,] 过 E[Zox*** XZ,XZnnilZo, 多 刘 = ZoxX**XZ = Xi. 


如 果 对 于 所 有 nn 有 ,二 0 且 E(Z,) 志 1, 那么 闷 是 一 个 上 蒜 . 同 理 ， 如 果 对 于 所 有 nn 有 
Z, 宇 0 且 E(Z,) 二 1， 那 么 有 ,是 一 个 下 轩 . 


3. 


分 支 过 程 


对 于 m 宇 1 和 n 宇 0, 令 天 为 与 独立 同 分 布 的 随机 变量 . 其 中 对 取 值 在 Z := {0, 1， 


2…} 上 有 期 望 为 y， 则 分 支 过 程 的 定义 为 入 =1 且 


出 


该 定义 可 以 理解 为 在 一 个 家 族 的 第 n 代 有 雹 个 成 员 ， 其 中 第 m 个 成 员 有 个 子女 . 
根据 定义 ， 可 以 看 到 
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QQ, =/ 了 ,7 之 0 


n3 


是 一 个 蒜 ， 因 为 
ElY,s | :| 6 


n 


所 以 ， 
ElZ,, | Zo0,…,2,] BLA VY,, | | 二 uy, 3 2 
设 fs)= El(eD) 且 记 g 为 q=fq) 的 最 小 非 负 解 ， 则 以 下 的 过 程 为 著 : 
W,=4q”,nz1. 


证 明 ” 留 作 练习 . 和 


4. 杜 布 蒜 
令 {Vi,n=1,，…, 信 为 随机 变量 且 了 = AR， … XW), 其 中 /是 一 个 有 界 的 可 测 实 值 
函数 . 那么 ， 


Z, = ElY|X"],n=0,…,N 

个 款 ( 由 条 件 期 望 的 重 期 望 性 质 ， 见 定理 7.7 )， 叫 作 杜 布 凌 . 下 面 是 两 个 例子 . 
(1) 把 NV 个 球 扔 到 MM 个 桶 中 , 令 了 为 某 个 抛掷 过 程 的 函数 ， 如 空 桶 的 个 数 ,最 大 
负荷 量 , 次 大 负荷 量 的 桶 数 , 等 等 . 邻 ,为 第 nn 个 球 所 在 桶 的 编号 , 那么 Z, = E[YIX,] 
是 一 个 款 . 

(2) 假设 一 个 桶 中 有 7 个 红 球 ,5b 个 蓝 球 .我 们 从 桶 中 取 球 (取出 的 球 不 放 回 ): 
拿 出 红 球 的 数目 是 多 少 ? 令 闷 为 表示 第 半 个 球 是 否 为 红色 的 示 性 函数 , 令 了 = 马 +…+ 
思 , 为 红 球 个 数 . 那么 Zz 是 一 个 扶 . 

5. 你 无 法 赢 过 庄家 

为 了 研究 收敛 性 ,我 们 首先 解释 蒜 的 一 个 重要 性 质 : 在 公平 的 投机 游戏 中 没有 必 
胜 的 法 门 . 

定理 13.12 ”你 永远 赢 不 了 ) 


并 


设 闷 为 对 应 于 {, 2,,n 宇 0} 的 著 , 而 态 ,为 关于 (%, 2) 的 有 界 函 数 . 那么 ， 
),n 二 1 (13.10 ) 
是 一 个 蒜 70 := 0. 


证 明 
我 们 有 
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E[Y, —Y,1 |X" ,2"] 
= E[V, (X, —X,1) | X"™ ,2 ] 
=V EL[X,—X, ,|X",2"]=0. . 
式 (13.10 ) 可 以 这 么 理解 : 马 表 示 你 在 第 m 轮 时 的 财富 . 假设 你 在 每 轮 下 注 时 
都 参考 过 去 的 胜 负 信息 (8 ，Z)， 并 按照 预期 的 副 利 比 及 一 训 ,1 下 注 . 记 到 -为 财 
注 大 小 . 于 是 也 代 表 了 你 在 第 n 轮 时 的 财富 . 上 面 的 结果 表明 ， 即 便 实时 调整 赌注 ， 
你 的 最 终 获 利 也 仍然 是 一 个 款 . 
6. 停 时 
玩 投机 游戏 时 ， 可 以 在 输赢 几 次 之 后 决定 不 再 继续 游戏 . 这 种 决定 不 以 对 下 次 输 
赢 的 预测 为 依据 .这 就 意味 着 不 能 说 :“ 知 道 最 后 三 局 会 输 我 才 决 定 不 玩 的 .” 因 此 ， 
随机 停止 时 间 ;使 得 事件 {rn} 只 取决 于 时 刻 n 之 前 的 信息 .我 们 也 称 这 样 的 随机 时 
间 为 停 时 . 
定义 13.13 ”停止 时 间 
如 果 随 机 变量 5 满足 在 {0, 1, 2,…} 中 取 值 且 存 在 函数 G 使 得 


Plr <n|X,,Y,,m0]=6(X",Y"), vn0 
成 立 ， 则 称 t 是 序列 {V6, 也 , n 宇 0} 的 停止 时 间 . 9 


举 个 例子 ， 
t=min{n 宇 0|(X,,Y,)e .分 
就 是 序列 {1 , n 三 0} 的 停止 时 间 ， 其 中 4 是 一 个 在 RR ?上 的 集合 .你 想 要 停止 的 时 
候 ， 要 么 已 经 一 无 所 有 ， 要 么 财富 已 经 超过 1 千 美 元 . 
现在 大 家 也 许 会 想 是 不 是 有 可 能 通过 选择 最 佳 的 停止 策略 来 让 自己 在 游戏 中 的 
财富 增加 ? 事实 证 明 ， 这 是 做 不 到 的 . 如 下 面 的 定理 所 示 . 
定理 13.14 ”可 选择 的 停止 


设 {Xi,n 宇 0} 为 对 ,Tt 是 对 应 于 {WV, 7,n 宇 0} 的 停 时 ， 那么 ， 


a SN 


在 这 一 定理 的 陈述 中 ， 对 于 随机 时 间 oc， 定义 当 o=n 时 ， = 矿 ,. 

证 明 

注意 到 ， 如 果 玩 家 每 次 选择 的 赌注 为 ,=1{r 入 n> m} ， 即 在 时 间 z 和 人 n 之 前 一 直 
下 赌注 1， 由 式 (13.10 ) 可 以 看 到 蕊 ,是 该 玩家 在 时 刻 n 的 财富 .由 于 
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lr 和 An>m}=1-{rAn 三 m}=b(X”,Y”) ， 玩 家 最 终 得 到 的 财富 是 一 个 蒜 . 和 » 
读者 也 许 已 经 注意 到 ， 限 制 上 述 定 理 中 zn 的 大 小 十 分 重要 . 比如 ， 设 五 对 应 
于 前 面 讨论 过 的 随机 游 走 , 其 中 PCQ, = D = P(Z= 一 1)= 0.5. 如 果 定 义 5= min{n 宇 0|%= 
10}， 则 zt 是 有 限 的 ( 详 见 定 理 13.2 下 的 评述 ) 因此, 忒 = 10， 
E[X, | X, =0]=10#X,. 
然而 ， 如 果 我 们 界定 停 时 ， 则 该 定理 指出 
E[X,,, | X, =0]=0. (13.11) 


这 一 结果 值得 大 家 进一步 思考 . 


也 许 有 人 会 对 式 ( 13.11 ) 左边 取 极 限 : 当 n 一 we 时 ， 因 为 + 是 有 限 的 ， 所 以 
lim X,,, = X, =10, 


工人 用 


大 家 可 能 会 得 出 结论 ， 式 ( 13.11 ) 的 左边 趋向 10， 和 式 〈13.11 ) 矛盾 了 . 这 里 
的 问题 在 于 取 极 限 和 取 期 望 两 个 操作 不 能 互 换 , 因为 随机 变量 X,,, 不 是 有 界 的 .但 是 ， 
假如 它们 是 有 界 的 由 控制 收敛 定理 ， 可 以 得 出 下 到 区] = 各， 我 们 将 这 一 观察 结果 总 
结 为 下 面 的 定理 . 

定理 13.15 ”可 选择 的 停止 一 2 

设 { 马 ,1 三 0 为 蒜 ，z 是 对 应 于 { 7, n 三 0} 的 停 时 ， 假设 存在 随机 变量 

矿 ， 满 足 玖 站 < oo 以 及 [唱和 太 那 么 ， 


E[X, |X6; 7 ]=.X,: 


Xn 


图 13-14 ”如 果 巴 ,不 收敛 ， 则 存在 一 些 有 理 数 a <b 使 得 , 穿 过 区 间 [a, 无 限 多 次 


7.L 有 界 款 

厂 有 界 蒜 不 可 能 在 区 间 [w, 5] 上 穿越 无 限 多 次 . 因为 如 果 这 样 的 话 , 那么 玩家 只 要 
在 向 上 穿 过 区 间 时 下 赌注 1 ,并 在 向 下 穿 过 区 间 时 下 赌注 0, 就 可 以 无 穷 地 增加 财富 .我 
们 马上 就 能 看 到 这 不 可 能 发 生 . 因此 ， 这 个 款 一 定 收敛 .( 注意 ， 如 果 该 招 不 是 有 
界 的 ， 那 么 该 结果 不 成 立 ， 如 随机 游 走 例子 所 示 . ) 

定理 13.16 上 有 界 蒜 的 收敛 性 

设 {o n 宇 0} 为 蒜 ， 且 E(|W)<KK 对 于 所 用 成 立 ， 那么 ,加 几乎 处 处 收 
和 敛 于 一 个 有 限 随 机 变量 XY. 


第 13 章 视野 拓展 和 补充 【99 


证 明 

考虑 区 间 [a, 忆 . 我 们 现在 说 明 马 不 能 向 上 穿 过 该 区 间 无 限 次 ( 见 图 13-14 ). 我 
们 在 马 向 上 时 下 赌注 1; 在 其 向 下 时 下 赌注 0. 也 就 是 说 , 首先 等 到 马 第 一 次 小 于 a， 
在 后 面 每 一 步 下 赌注 1 直到 总 >5; 继而 停止 下 注 直 到 及 ,再 次 小 于 a. 然后 一 直 重 复 
这 一 步骤. 如果 马 在 时 间 半 之 前 穿 过 区 间 U 次 ,玩家 的 财富 至 少 有 (5-q)U0-(X%-q). 这 
是 因为 , 每 次 向 上 穿 过 区 间 时 玩家 的 收益 最 少 , 为 5 一 a. 而 在 最 后 几 步 ， 如果 在 玩家 
开始 重新 下 注 后 ,XY, 再 也 没有 向 上 穿 过 bp， 那么 玩家 最 多 输 掉 和 ,一 a. 但 是 ， 因 为 1 
是 一 个 款 ， 所 以 

E(Y)=Y, (0D-aE(V,)- EX, -a)(0-aE(UV,)-K+a. 


这 说 明 E(U,) 三 B=(K+% -a)/(5-a)<%. 令 n 一 ww， 由 于 1U0， 其 中 U 是 向 上 穿 
过 区 间 [a, bp] 的 总 数 ， 由 单调 收敛 定理 得 E(B. 因此 , U 是 有 限 的 , 有 %, 不 能 向 上 无 
限 次 地 穿越 任意 给 定 区 间 [a, 5].， 所 以 ， 其 向 上 无 限 次 穿越 有 限 区 间 的 概率 为 0 ( 因为 
这 样 的 区 间 个 数 是 可 数 的 ) 这 意味 着 总 一 定 收 全 ,不 是 收敛 于 to、-oo 就 是 收敛 到 
一 个 有 限 值 . 但 是 因为 BUS 三 K， 所 以 成 收敛 于 +oo 或 -oo 的 概率 为 0. 

下 面 的 定理 是 定理 13.16 的 直接 推论 , 十 分 有 用 . 我 们 在 定理 10.2 中 就 运用 这 一 
结果 证 明了 随机 梯度 投影 算法 的 收敛 性 . 

定理 13.17 L? 有 界 革 的 收敛 性 


设 加 为 有 界 著 ， 即 E(X?) 三 K?， Vn 之 0， 那么 存在 某 有 界 的 随机 
变量 么 ， 使 得 入 几乎 处 处 收 仇 到 下、 


证 明 
詹 森 不 等 式 ， 我 们 有 


E(X,) < EX?)<K’, 
所 以 ,对 于 所 有 n 都 有 E(Xl) <K， 定 理 结论 可 以 由 定理 13.16 得 到 . 
我 们 还 可 以 类 似 地 证 明 E(%-X)0. 
13.8.3 大 数 定律 


蒜 收 敛 结论 还 可 以 用 于 证 明 强 大 数 定律 ， 如 杜 布 [Doob ，1953] 所 证 . 
定理 13.18 ”强大 数 定律 


令 {WV,n 三 1} 为 独立 同 分 布 随 机 变量 , 其 中 E(|%6) = K<oo 且 EC) = 人 那么 ， 


让 


+… 十 访 
让 


re 名 > 也 几乎 处 处 收 冀 . 
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证 明 


今 


S, = +…+ 六 ,nn 之 1. 
注意 ， 由 对 称 性 有 


1 
E[X.|S,,S,1]=—S, 一 也， (13.1 
n 


1 二 1? 


所 以 ， 
E[Y,|S 


1 二 1? 


“*]= ELELX, | 999] 
= 五 [六 18 0]= 世 ，. 


1 二 1? 


2 ) 


所 以 ，{… ;2 了 js 了， …} 是 一 个 蔷 ( 杜 布 款 )， 和 前 面 一 样 ， 这 说 明 该 蒜 向 上 穿 
过 区 间 [a, 5] 的 次 数 上 ,满足 EUDEB<oo， 如 前 所 述 ， 我 们 得 出 结论 0 =1limU,< oo 几 


乎 处 处 收敛 . 因此 ， 环 几乎 必然 收敛 于 随机 变量 了 。. 
现在 ， 由 于 


国人 
7_=1lm 一 ! 
no n 


我 们 知道 对 于 任意 有 限 n, 了 独立 于 CYi,，…, 大 ). 事实 上 ， 这 个 极限 不 依赖 于 前 个 
随机 变量 的 值 ， 因 为 了 是 关于 {%, nn 三 1} 的 函数 ， 所 以 它 必 然 和 自己 独立 ,或 者 说 它 


NL EH 
是 一 个 常量 . 


为 E(Y,) = E(7') =n， 我 们 得 到 Y=. 


13.8.4 活 尔 德 等 式 


识 的 一 个 重要 应 用 是 下 面 将 要 介绍 的 沃 尔 德 等 式 . 设 { 尼 ，2> 1 为 独立 同 分 布 随 


机 变量 . 令 z 为 随机 变量 ， 独 立 于 从 {1, 2,…} 中 取 值 的 闷 ， 并 有 ED <o. 那么 ， 


E(X ++X,)= E(T)E(X,). (13.13 ) 


这 个 表达 式 即 为 沃 尔 德 等 式 . 


理解 这 一 结果 的 关键 在 于 注意 到 7 = 妃 +… 二 区 也 -OECD 是 一 个 加 . 而且 * 是 停 


时 ， 所 以 只 要 将 + 替换 为 r 人 n 就 得 到 : 
E(Y.,,)=£(Y)=0, 


若 ED<o， 可 以 令 半 趋向 于 无 穷 从 而 得 到 结论 .〈 比 如， 将 总 替换 为 和 ， 然 后 月 
调 收敛 定理 对 总 进行 类 似 的 运算 ， 然 后 相 减 . ) 


有 单 
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13.9 小 结 


口 一 般 推断 问题 ， 给 定 了 推断 X， 贝 叶 斯 准则 运用 与 否 
口 充分 统计 量 : h(D) 是 对 的 充分 统计 量 
口 无 限 马 尔 可 夫 链 : 正 递归 、 零 递归 、 瞬 态 

口 李 雅 普 诺 夫 - 福 斯 特 准则 

口 泊 松 过 程 : 独立 稳 态 增 量 

口 连续 时 间 马 尔 可 夫 链 : 速率 矩阵 

口 二 元 对 称 信 道 的 香农 容量 : 典型 序列 和 随机 编码 
口 界限 : 切 尔 诺 夫 不 等 式 和 詹 森 不 等 式 


出 
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口 款 和 收敛 性 
口 强大 数 定 理 
重要 方程 与 公式 

推断 问题 给 定 了 猜测 蕊 最 大 似 然 估 计 ， 最 大 后 验 概率 ， 假 设 检 验 13.1 节 
充分 统计 量 fx ly lx]= /OO 0sO) 定义 13.1 
无 限 马尔 可 夫 链 不 可 约 寺 瞬 态 的 ， 零 递归 或 正 递归 定理 13.2 
泊 松 过 程 在 接 下 来 的 = 秒 内 ， 跳 跃 概 率 为 4. 定理 13.4 
连续 时 间 马 尔 可 夫 链 从 i 跳 到 j 的 速率 为 O(i, 让 定理 13.8 
香农 容量 可 以 用 任意 速率 R<C 可 靠 地 传输 13.6 节 
二 元 对 称 信道 的 香农 容量 C= 1+plogs(p)+(1 - p)logs(1 -p) 式 (13.2) 
团 尔 诺 夫 不 等 式 P(X>a)<E(exp{O(X -a)}),vO=0 式 (13.5) 
詹 森 不 等 式 h 是 凸 函数 二 E(h(Y))A(E(Y)) 式 (13.6) 
拷 增 量 期 望 为 0 定义 13.11 
蒜 的 收银 性 如 果 是 ZL 或 ?有 界 的 ， 那么 几乎 处 处 收敛 于 有 限 的 随机 ”定理 13.16 
沃 尔 德 不 等 式 E(Xi+**+X) = E(D)E(X') 式 (13.13) 


13.10 参考 资 书 


有 关于 马尔 可 夫 链 的 理论 ， 可 以 参见 Chung 的 Markov Chains with Stationary 
Transition Probabilities. 教材 Performance Modeling and Design of Computer Systems: 


Queueing Theory in Action 讲解 了 基本 的 排队 论 和 其 在 计算 机 系统 和 运筹 学 上 的 应 用 . 


强烈 推荐 Bremaud 的 Markov Chains: Gibbs Fields, Monte Carlo Simulation, and 
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Queues .该 书 的 讲解 清晰 明了 并 且 具 有 应 用 的 广度 . 信息 论 在 教材 Elements of 
Information Theory 中 有 详细 阐述 . 我 有 关 蒜 的 知识 大 多 来 自 于 Neveu 的 Discrete 


Parameter Martingales 一 书 . 


13.11 练习 


1. 假设 y,，…, yi 是 符合 Me 四 的 独立 同 分 布 随 机 变量 的 样本 点 . 给 定 o=1, 估 
计 4 的 充分 统计 量 . 给 定 4= 1， 估 计 c 的 充分 统计 量 ? 

2. 顾客 到 达 商 店 服从 泊 松 过 程 ， 速 率 为 4 ( 每 小 时 ). 

(a) 在 一 小 时 内 恰 有 3 名 顾客 到 达 的 概率 是 多 少 ? 

(b) 在 第 一 名 顾客 到 达 之 前 ,需要 至 少 40 分 钟 的 概率 是 多 少 ? 

3. 考虑 两 个 独立 的 泊 松 过 程 ， 它 们 的 参数 分 别 为 4 和 4, . 这 两 个 过 程 计 量 到 达 
商店 1 和 商店 2 的 顾客 数 . 

(a) 有 顾客 到 达 商 店 1 时 ,没有 顾客 到 达 商 店 2 的 概率 是 多 少 ? 

(b) 在 第 一 个 小 时 恰 有 6 名 顾客 到 达 两 个 商店 的 概率 是 多 少 ? ( 到 达 两 个 商店 的 
人 数 之 和 为 6. ) 

(c) 在 已 知 6 名 顾客 到 过 两 个 商店 的 前 提 下 ,这 6 人 全 部 去 商店 1 的 概率 是 多 少 ? 

4. 考虑 图 13-15 所 示 的 连续 时 间 马 尔 可 夫 链 . 


图 13-15 ”连续 时 间 马 尔 可 夫 链 


(a) 找 出 其 稳 态 分 布 . 

(b) 模拟 该 马尔 可 夫 链 ， 并 证 实 其 在 状态 1 花费 的 时 间 比 例 收 全 于 x(1). 

5. 考虑 一 个 离散 时 间 排 队 系 统 . 到 达 服 从 伯 努 利 分 布 ,参数 为 4 . 服务 时 间 是 独 
立 同 分 布 随机 变量 ， 且 与 到 达 时 间 独 立 . 每 次 的 服务 时 间 Z 从 {1, 2，…, K} 中 取 值 ， 
并 有 E(D)=1 有 是 4<4. 

(a) 构建 用 于 模拟 这 一 排队 问题 的 马尔 可 夫 链 . 其 状态 和 转移 概率 各 是 什么 ?( 提 
示 : 假设 队伍 最 前 面 的 任务 仍然 需要 z 个 时 间 单 位 的 服务 . 将 z 加 入 马尔 可 夫 链 的 状 
态 描述 中 . ) 

(b) 运用 李 雅 普 诺 夫 - 福 斯 特 准 则 证 明 该 队列 是 稳定 的 ， 即 马尔 可 夫 链 是 正 递归 的 . 
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6. 假设 随机 变量 从 集合 {1，2,…, K} 中 取 值 ,使 得 Pr = 及 =p:>0 有 是 
5 p。 = 1. 假设 局, 殉 , …, 态 是 了 的 个 独立 同 分 布 随机 变量 样本 序列 . 

(a) 存在 多 少 可 能 的 序列 ? 

(b) 当 n 很 大 时 ， 存 在 多 少 典 型 序列 ? 

(c) 找到 一 种 情况 ， 使 得 (qa) 和 (5b) 的 答案 是 相同 的 . 

7. 令 {N 1 三 0} 为 参数 为 4 的 泊 松 过 程 . 令 5 表示 第 n 个 事件 的 时 间 . 找 出 : 

(a) 5 的 概率 分 布 函 数 ; 

(b) E[Ss]; 

(c) ELS4N(1) = 2]; 

(d) EL[N(4)-NO)INGU) = 3]. 

8. 一 队列 到 达 服 从 泊 松 过 程 ， 参数 为 4 . 有 两 个 并 行 工作 的 服务 人 员 . 当 队 列 中 
至 少 有 2 名 顾客 时 ， 有 2 名 顾客 同时 接受 服务 . 当 只 有 1 名 顾客 时 ， 只 有 1 位 服务 人 
员 提 供 服务 . 服务 时 间 是 独立 同 分 布 随机 变量 ， 服 从 参数 Exp(). 

(a) 说 明 队 列 长 度 是 马尔 可 夫 链 . 

(b) 画 出 状态 转移 图 . 

(c) 找 出 使 得 队列 是 正 递 归 的 4 的 最 小 值 ， 并 求解 平衡 方程 . 

9. 令 {Ys 过 9 为 连续 时 间 马 尔 可 夫 链 ， 速 率 矩 阵 为 2 = {gi, 让 . 定义 q@)= > 
d@0 门 . 又 令 了 =inftt>0| 和 = 中 且 S =inftt>0| 世 = 站. 那么 以 下 哪些 正确 ? 

口 ELS 1X = 中 =d0) . 
口 FI <7,|X, =k]=9(Kk,D)/(qg(k,i)+9(k,7)) ， 其 中 六 六 大 各 不 相等 . 
口 若 w(D = PIT <7T 1 = 月， 那么 对 于 上 e 亿 月 ，c(= 2 

10. 一 个 连续 时 间 队 列 有 服从 参数 4 的 泊 松 过 程 到 达 时 间 ， 且 具备 无 限 多 的 服 
务 人 员 . 对 于 众多 顾客 ， 服 务 人 员 可 以 并 行 工作 . 但 他 们 之 间 互 不 合作 ， 即 1 名 顾 
客 只 能 接受 1 名 服务 人 员 的 服务 ,所 以 ， 当 有 名 顾客 在 队列 中 时 ,只 有 名 服务 
员 在 工作 . 假设 每 名 顾客 的 服务 时 间 是 独立 同 分 布 随 机 变量 ， 服 从 参数 为 wk 的 指 

} 布 . 
(a) 说 明 队 列 长 度 是 马尔 可 夫 链 ， 并 画 出 该 链 的 状态 转移 图 . 
(b) 证 明 对 于 有 限 的 4 和 yx， 马尔 可 夫 链 是 正 弟 归 的 ， 并 找到 其 稳 态 分 布 . 
11. 考虑 一 个 参数 为 4 = 1 的 泊 松 过 程 {N, 1 二 0}. 令 随 机 变量 5 表示 第 i 个 到 达 的 
Xe 
(i-D)! 
(a) 给 定 8% =s， 找 出 和 8 的 联合 分 布 . 


CQ(9) . 


| 


洋 一 


时 间 . (提示 : fs (x)= 1{x 宇 0}.) 
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(b) 找 出 E[S51S3=s]. 

(c) 找 出 E[SsINi =2]. 

12. 令 S= 了 ,XX 表示 在 8 小 时 内 从 一 台 ATM 取款 的 数额 之 和 ， 其 中 : 

(a) 节 是 独立 同 分 布 随 机 变量 ， 代 表 每 个 顾客 的 取款 金额 ， 有 日 ELXi] = 30，Var[X] = 


400; 


(b) N 是 一 个 泊 松 随机 变量 ， 表 示 顾 客 总 数 ， 且 EIN] = 80; 

求 E[S] 和 Var[S]. 

13. 给 定 两 个 独立 的 泊 松 过 程 Mi 和 NM， 其 对 应 的 速率 分 别 为 1 和 A (4>A) 计 
算 E(z)， 其 中 z= max{1 二 0 |M,<N,+5} (注意 ， 这 是 最 大 值 ， 不 是 最 小 值 ). 

14. 考虑 一 个 队列 ,其 到 达 服 从 泊 松 过 程 ,参数 为 4 .服务 时 间 为 1 个 单位 时 间 . 令 
闷 为 时 间 t(t 三 0) 时 的 队列 长 度 . 

(a) 总 是 一 个 马尔 可 夫 链 吗 ? 证 明 或 证 伪 之 . 

(b) 令 士 是 第 n 次 (n 三 1) 离开 队列 后 的 队列 长 度 . 证 明 ,是 一 个 马尔 可 夫 链 ， 
并 画 出 其 状态 图 . 

(c) 证 明 当 4<1 时 ,是正 递 归 的 . 

15. 假设 一 个 队列 系统 的 到 达 过 程 是 参数 为 4 的 泊 松 过 程 . 队列 最 多 容纳 N 个 顾 
客 . 每 个 顾客 所 需 的 服务 时 间 服 从 参数 为 4 的 指数 分 布 . 当 1 位 顾客 到 达 时 ， 可 以 
选择 支付 c 元 让 其 离开 ; 如 果 1 位 顾客 到 达 时 队列 已 满 ， 那 么 也 需要 支付 c 元 . 你 
要 决定 什么 时 候 接受 新 顾客 ， 使 得 拒绝 顾客 的 花费 以 及 在 队伍 中 的 平均 等 待 时 间 之 
和 最 小 . 

(a) 将 这 一 问题 建 模 成 马尔 可 夫 决 策 问 题 . 为 了 简化 问题 ， 考 虑 总 的 折扣 代价 : 
如 果 在 时 间 +t 有 x 名 顾客 ,那么 在 [6 村 z] 的 等 待 代价 为 eZ%x,e .类 似 地 ， 如 果 你 在 时 
刻 上 拒绝 了 一 名 顾客 ， 那 么 代价 为 ce 加. 

(b) 写 出 动态 规划 方程 . 

(c) 通过 截断 状态 空间 ， 运 用 Matlab 求解 该 方程 . 

16. 计数 过 程 N := {Ni 0<t< 允 的 定义 如 下 : 

给 定 t，{N, 0<t< 和 {NN rz 和 ti 径 人 是 独立 的 泊 松 过 程 ， 它 们 的 参数 分 别 
为 1 和 44. 和 4 和 4 已 知 , 且 0<4<4 .而且 ,rz 是 指数 分 布 的 ， 甚 参数 w (/0 ) 
已 知 . 

(a) 给 定 入 , 求 t 的 MLE. 

人) 给 定 W， 求 rz 的 MAP. 

17. 图 13-16 展现 了 一 个 系统 . 在 该 系统 中 ， 输 出 源 根 据 一 个 转移 参数 给 定 的 连 
续 时 间 马 尔 可 夫 链 ， 在 ON 和 OFF2 之 间 相 互 转换 . 当 源 处 于 ON 时 ， 它 送出 速率 为 
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2 的 水 流 进 入 队列 . 当 源 处 于 OFF 时 ， 则 不 送出 水 流 . 队列 总 以 恒定 速度 1 排水 . 令 
总 为 时 间 巡 0 时 队列 中 的 水 量 . 


图 13-16 系统 


(a) 画 出 这 一 随机 过 程 {Z 1 二 0} 的 典型 轨迹 . 

(b) 直观 来 看 ，4 和 % 需 满足 什么 条 件 才 能 使 得 该 队列 稳定 ? 

(c) 过 程 {&, 1 二 0} 是 马尔 可 夫 过 程 吗 ? 

18. {Ni 1! 宇 0} 为 参数 为 4 的 泊 松 过 程 ， 其 中 4 服从 参数 为 (1>0 ) 的 指数 分 布 . 

(a) 求 MLE[4|N,, 0<s<d. 

(b) 求 M4P[4N,, 0<s<4]. 

(c) 给 定 [N,, 0<s 志 1，4 的 充分 统计 量 是 什么 ? 

(d) 假设 4 在 [5, 10] 中 取 值 , 不 服从 指数 分 布 . 求 时 间 t 的 估计 值 , 使 得 4 的 估计 
误差 不 大 于 5% 的 概率 为 95%. 

19. 考虑 两 个 平行 的 离散 时 间 队 列 ， 其 到 达 过 程 分 别 为 参数 为 4 和 1 的 伯 努 利 过 
程 . 顾客 的 服务 时 间 分 别 服从 参数 为 yl 和 jw 的 几何 分 布 ， 由 于 只 有 1 名 服务 员 ， 同 
一 时 间 只 能 为 队伍 1 或 队伍 2 提供 服务 .考虑 以 下 的 调度 策略 :如 果 49(n) > 40,(n)， 
那么 服务 员 在 时 间 n 服务 队伍 1， 否 则 服务 队伍 2， 其 中 91(m) 和 O05(n) 是 时 刻 n 的 队 
列 长 度 . 运用 李 雅 普 诺 夫 函 数 V(O(n),9;,(n)=O7(n)+Q2(n) 证 明 : 如 果 
VW+hb /1 <1， 则 队列 是 稳定 的 . 这 一 调度 策略 叫 作 最 大 权重 或 回 压 策略 . 


附录 斤 
概率 论 基 础 知识 


总 体 框架 ， 条 件 概率 ， 贝 叶 斯 定理 ， 独 立 事件 ， 期 望 ， 概 率 密度 
函数 ， 累 计 分 布 函数 ， 随 机 变量 的 函数 ， 相 关 ， 方 差 ， 联 合 概率 
密度 函数 的 转换 


A.1 总 体 框 架 


概率 论 的 基本 模型 看 起 来 也 许 有 些 抽 象 、 难 以 理解 . 但 事实 上 ， 概 率 论 把 所 有 的 
关键 概念 统一 起 来 ， 形 成 了 非常 清晰 的 理论 体系 . 在 研究 书 中 的 实际 例子 时 ， 读 者 应 
当 把 整体 的 知识 框架 牢记 在 心 . 


A.1.1 概率 空间 


在 描述 随机 性 实验 时 , 首先 要 用 集合 Q 来 明确 地 表述 出 所 有 可 能 的 结果 . 这 个 集 
合 叫 作 样 本 空间 .比如 说 ， 抛 一 枚 硬币 时 ， 样 本 空间 为 Q={ 玉 ,7T} (这 里 的 如 表示 正 
面向 上 ， 而 了 表示 反面 向 上 ); 掷 一 颗 蜗 子 时 ， 样 本 空间 为 2= 业 23,43,6} ; 测量 电 
压 时 ,样本 空间 可 能 是 Q= 轴 =(-o0,+400) ; 等 等 . 

确定 样本 空间 以 后 ,我们 希望 知道 随机 性 实验 结果 落 在 Q 的 某 一 个 子 集中 的 概 
率 . 也 就 是 说 ,对 于 子 集 4cQ ,我 们 希望 计算 出 概率 P(4) e[0,1] ， 这 个 数值 能 够 代 
表 随 机 性 实验 结果 落 在 子 集 4 中 的 可 能 性 . 举例 来 说 ， 在 搓 蜗 子 的 时 候 , 用 | 4 | 来 表 
示 子 集 4 中 含有 的 元 素 个 数 ， 那 么 实验 结果 落 在 集合 4 中 的 概率 为 P(4) 直 41/6 . 在 
测量 电压 时 , 测量 值 取得 某 一 个 特定 数值 的 概率 一 般 为 0, 但 测量 值 的 绝对 值 小 于 15 
的 概率 则 可 能 是 95%. 这 就 是 定义 概率 时 针对 于 集合 ， 而 不 是 针对 于 特定 某 个 结果 的 

当然 ， 在 定义 Q 子 集 的 概率 时 需要 遵循 一 些 规则 .比如 说 ， 如 果 4 cB， 那么 一 
定 有 P(g 科 PLD) .同时 , 我 人 有 P(Q)=1. 另外 ,假如 集合 A、B 没有 交集 ， 那么 
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PL4UB)= P(A)+P(B) ， 最 后 ,为 了 能 够 用 简单 集合 来 近似 复杂 集合 ,我 们 还 要 求 ， 
如 4c4c4c… 且 4=U4, 则 PC4) 一 PC ;同样 地 ,如果 4 二 二 二 坟 二 … 且 
4= 站 4,， 则 Pd) 一 PC4). 

从 上 述 性 质 可 以 推出 如 下 结论 . 

定理 A.1 博 雷 尔 - 坎 特 利 引 理 


令 事件 4 满足 


y PC) < 
7=1 


则 有 
P(4 ,1Lo.) = 0. 


这 里 ，{4 ,io 代表 有 无 穷 多 个 事件 4 发 生 . 
证 明 首先 ， 我 们 注意 到 : 


{4,,i0.}=,B,, 
这 里 的 B=U,s, 4, 是 一 串 递 减 的 集合 . 事实 上 ， 当 且 仅 当 对 于 所 有 的 n 都 有 某 个 事 
件 4 芭 在 m 三 n 时 发 生 ，4, 会 出 现 无 穷 多 次 . 
因此 ， 


P(A,,i0.) = lim P(B,) 


并 且 P(B,) 志 》P(4,)， 因 此 ? 
Ua 风 
在 这 里 需要 说 明 , 一 般 情况 下 无 法 严格 定义 Q 所 有 子 集 的 概率 , 不 过 这 并 不 影响 
概率 的 应 用 . 在 专业 术语 中 ， 我 们 把 Q 中 能 够 在 其 上 严格 定义 概率 的 子 集 称 为 事件 . 
A.1.2 独立 事件 


对 于 两 个 事件 4 和 B， 如 果 PC4mnB) = P(4)P(B8)， 那 么 称 4 和 B 是 独立 的 . 比 
如 同时 投 搂 两 枚 骨 子 ,得 到 的 结果 是 (a,b) e 人 2,…,6 . a 表示 第 一 枚 货 子 的 点 数 ，7 
表示 第 二 枚 散 子 的 点 数 . 现在 考虑 两 个 事件 : 事件 “第 一 枚 贷 子 的 点 数 在 集合 {2,4,5} 
中 ”对 应 结果 的 集合 是 4= {2,4,5}x{1,…,6} ;事件 "第 二 枚 蜗 子 的 点 数 在 集合 1,4 中 ” 


Mal 
RL 咱 
奉 


Q@ 如 果 非 负 的 数列 a, 满足 六 a,<wm， 则 nw 时 一 定 有 a ->0 
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对 应 结果 的 集合 是 互 = 出 …6}x2,4 .根据 定义 可 以 判断 4 和 8 独立， 因为 
P(A)=18/36, P(B)=12/36, 而 BL P(ANMNB)=6/36. 

一 个 更 复杂 一 些 的 概念 是 相互 独立 .如 果 {4,, je J} 满 足 

P(N jx 4,)=]]x (4), VY 有 限 集 K 

则 称 事件 L4 ,7 e /相互 独立 .我 们 可 以 很 容易 地 构造 出 两 两 独立 但 不 相互 独立 的 集 
合 . 比如 , 假设 = 也 2,3, 信 且 4 个 结果 出 现 的 可 能 性 相等 . 令 4= 世 分， 有 = 蔬 委 以 
及 C= 业 4， 则 很 容易 验证 这 3 个 子 集 两 两 独立 但 不 相互 独立 ， 因 为 P(4 门 B 败 C) = 
1/4# P(A)P(B)P(C). 


A.1.3 随机 变量 
随机 变量 卫 是 一 个 从 样本 空间 到 实数 集 的 函数 对 :Q 一 站. 通过 这 个 概念 ， 可 以 
将 随机 试验 中 每 一 个 可 能 的 结果 与 一 个 实数 X(@) 联系 起 来 . 
例如 在 抛 硬币 的 试验 中 ,样本 空间 为 Q= {8,7} . 可 以 将 随机 变量 定义 为 闷 本 =1， 
X(ND=0. 
接 下 来 ， 对 于 实数 集 BcR， 采用 记号 PX eB)= P(X (B))， 其 中 
XB)={0eQN| Xo) eB. 
这 个 记号 表达 的 意思 很 直观 : 随机 变量 对 eB 的 概率 等 于 所 有 使 得 外 (@) eB 的 实验 结 
果 w 的 概率 . 
另外 ， 特 别 定义 累积 分 布 函 数 为 到 0=PKe(Coz) 三 PT 入 困 . 
图 A-1 是 一 个 随机 变量 的 示意 图 . 
Q RR， 实 线 


@Y, ©® 


PY € B):=P(X(B)) 
图 A-1 随机 试验 可 以 用 结果 集 Q 即 样本 空间 进行 描述 . 每 个 9 的 子 集 都 有 一 个 
相应 的 概率 ， 而 每 个 随机 变量 则 是 一 个 随机 试验 结果 w 的 实 值 函 数 


A.1.4 随机 向 量 
随机 向 量 半 =( 了 Y,…, 子 ,) 的 每 一 个 分 量 都 是 定义 在 同一 个 概率 空间 中 的 随机 变 
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量 . 也 就 是 说 ， 它 是 一 个 从 采样 空间 到 R" 的 函数 X :9 一 加 ， 按 如 下 方式 定义 联合 
累积 分 布 函数 : 
F(x)= P(X x, X, Sx,), xeR". 


A.2 离散 型 随机 变量 


A.2.1 定义 
我 们 将 离散 型 随机 变量 定义 为 一 系列 离散 可 能 的 取 值 及 它们 对 应 的 概率 : 


X={(%,,p,), n=1,2,.…,N}. (A.l ) 从 


C2 
这 里 的 x 是 实数 ,，p, 是 正 实数 且 和 为 1. 根据 定义 ，p, 是 随机 变量 蕊 取 值 为 x 的 
概率 ， 记 为 


p, = P(X =%,), n=L,…,N. 
和 N 的 取 值 可 以 是 无 穷 大 .这 一 系列 的 p, 被 称 为 随机 变量 对 对 应 的 概率 质量 函数 . 
举 个 例子 ， 


y={(0,0.1),(2,0.3),(3,0.0)} 


是 一 个 随机 变量 ， 它 有 3 个 可 能 的 取 值 (1, 2, 3)， 相 应 的 概率 为 (0.1, 0.3, 0.6). 
离散 型 随机 变量 与 概率 论 总 体 框架 的 联系 如 下 : 有 一 个 概率 空间 和 一 个 函数 
了 革 :Q 一 RR， 它 仅 在 集合 fx,…,x} 中 取 值 ， 并 且 满 足 
P(X=%)=P({0 ed|X(0)=%,))=p,. 


对 某 一 个 随机 变量 了 感 兴趣 时 ,应 当 关 注 它 可 能 的 取 值 及 其 对 应 的 概率 ， 即 随机 
变量 的 概率 质量 函数 ， 而 不 必 关 注 产 生 这 个 随机 变量 所 需要 的 随机 试验 . 


A.2.2 期 望 
随机 变量 了 的 期 望 值 (或 平均 值 ) 记 为 ECY) ， 定义 为 
EC 一 之 Pr 


BS E00 = 2 sp | 人 
| 


图 A-2 ”随机 变量 的 期 望 值 
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在 上 文 的 例子 中 ， 
E(V)=1x0.1+2x0.3+3x0.6=2.5. 


F 面 是 另 一 个 经 常用 到 的 例子 : 如 果 4 是 样本 空间 Q 中 的 一 个 事件 ， 令 
了 (@)=1{we 从 , 则 称 随 机 变量 X 是 事件 4 的 指示 函数 .在 这 种 情况 下 ,事件 4 以 PCd) 
的 概率 发 生 ， 此 时 对 = 1; 其 余 情 况 下 = 0. 所 以 ECO= PC . 

当 为 无 穷 大 时 ,上述 定 义 依然 成 立 , 除非 在 E09) 求 和 时 所 有 正 项 之 和 与 所 有 人 负 
项 之 和 都 是 无 穷 大 . 这 种 情况 下 ,的 期 望 值 不 存在 . 


A.2.3 随机 变量 的 函数 


考虑 一 个 离散 型 随机 变量 和 函数 户 财 一 办. 则 HB 定义 了 一 个 新 的 随机 变量 ， 
其 取 值 和 概率 值 为 


{(h(x, ), p,), n= 1]… ,NN}. 
注意 h(x, ) 对 不 同 的 入 取 值 可 能 是 相同 的 ， 为 了 与 概率 质量 函数 的 定义 相符 ， 我 们 需 
要 将 取 值 相 同 的 项 合并 ， 并 将 其 概率 相 加 . 


FR 
AX) 


PC) 


nAX()) 


P() 
图 A-3 ”随机 变量 的 函数 


例如 ， 如 果 AD = A2)=10 ，h(3)=15 ， 那么 
h(V)={(10,0.4),(15,0.06)}, 


这 里 将 AD 和 有 h(2) 两 项 合并 了 ， 因 为 它们 的 值 都 是 10. 


所 以 ， 
E(hW) =10x0.4+15x0.6=13. 
注意 到 
E(h(V))= 2 )p, 
这 是 因为 


附 寻 A 概率 论 基础 知识 尼 11 


DA,)p, =h(0)0.1+ h(2)0.3+h(3)0.6 
n=] 
=10x0.1+10x0.3+15x0.6 
=10x(0.1+0.3)+15x0.6, 
与 之 前 的 表达 式 相 符 . 
下 面 将 上 述 观 察 总 结 成 定理 . 
定理 A.2 ”随机 变量 函数 的 期 望 
假设 随机 变量 XY 的 概率 质量 函数 为 {(%,p,),n=1,…, 和 N} 且 太 9 一 嘱 是 


一 个 函数 . 则 


EC = 2 h(x, )p,. 


A.2.4 非 负 的 随机 变量 


如 果 随 机 变量 的 所 有 可 能 取 值 x 都 是 非 负 的 , 则 称 是 非 负 的 ,写作 三 0. 注 
意 到 


若 X 宇 0 且 E(X)=0, 则 P(X=0)=1. 


同样 ， 
知 碟 过 0 且 E(CO<oo ， 则 PCX<oo)=1. 
A.2.5 期 望 的 线性 性 质 


考虑 函数 户 : 叶 全 只 和 万 :由 全 用， 定义 太 ( 避 + 万 (六 如 下 : 
h(X)+hX)={h 5) +h,), p,), n=1,..., N}. 


则 有 
EOO Th OD = DA) th )p, 
将 右 侧 各 项 重组 ， 有 
E(h(X)+h(X)=Eh(X) +E((X)), 
即 期 望 具有 线性 的 性 质 . 
A.2.6 方差 与 变异 系数 


定义 随机 变量 蕊 的 方差 var( 了) 为 
var(X)= E((X—E(X))), 
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根据 期 望 的 线性 性 质 可 以 得 到 
var(X)=E(X”—2XE(X)+E(X)) 
=E(X’)—-2E(X)E(X)+E(X) =E(X’)-E(X). 
对 于 式 ( A.1 ) 中 的 例子 ， 有 
var(V)= E(V*)-E(V)Y =1 x0.1+2: x0.3+3* x0.6—(2.5)* =0.45. 
定义 随机 变量 钱 的 标准 差 cy 为 其 方差 的 平方 根 ， 即 
ox := Vvar(X). 
注意 到 ， 如 果 随 机 变量 下 以 相同 的 概率 取 值 E(X)-ox 或 ECOO+ar ， 那 么 
E(WV)=E(X) 并 且 var(WV)=var(X). 从 这 个 角度 来 看 ，oy 是 对 期 望 值 偏差 的 度量 . 
读者 可 以 轻松 验证 , 使 得 E((X-a) ) 取 最 小 值 的 a 满足 a=E(X). 因此 , 期望 也 
叫 作 随 机 变量 对 在 最 小 二 乘 意 义 下 的 估计 值 . 
Te 
1 


车 


图 A-4 方差 使 随机 性 变 得 有 趣 
A.2.7 重要 的 离散 型 随机 变量 

这 里 介绍 几 个 重要 的 离散 型 随机 变量 . 

1. 伯 努 利 随 机 变量 


如 果 


X={(0,1—p),(l, p)}, 
即 如 果 
P(X=0)=1-pH P(X=1)=p, 
那么 人 是 关于 参数 pe[0,1] 的 伯 努 利 随 机 变量 ,， 记 为 =, B(p). 
请 读者 验证 2(X)=p 以 及 var(X)=p(-p). 这 个 随机 变量 能 够 用 于 为 单 次 抛 硬 
币 问题 建 模 ， 其 中 1 代表 正面 向 上 ，0 代表 反面 向 上 . 
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图 A-5 伯 努 利 随 机 变量 用 于 为 单 次 抛 硬 币 问 题 建 模 


2. 几何 随机 变量 
如 果 


P(X= 门 =(- 四 六 P7 二 


则 称 随机 变量 闷 关 于 参数 六 e[0,1 服 从 几何 分 布 ， 记 为 和 =，G(CP) . 

请 读者 验证 2(X)=1/p 以 及 var(X)= PU- 六 .这 个 随机 变量 也 可 以 用 于 为 抛 
硬币 问题 建 模 , 描述 了 第 一 次 出 现 反面 时 抛掷 的 次 数 .( 有 时 ,入 1 也 被 称 为 在 10.1…} 
上 的 几何 随机 变量 . 为 了 避免 混淆 ， 本 书 将 义 定 义 在 集合 {1,2,…} 上 . ) 


图 A-6 几何 随机 变量 用 于 为 第 一 次 出 现 反 面 时 的 硬币 抛掷 次 数 建 模 


3. 二 项 随机 变量 
如 果 


则 称 随机 变量 浆 为 关于 参数 V 和 六 的 二 项 随机 变量 ， 记 为 区 =。，B(N, 门 ， 这 里 


mm 
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0.12 r T T T 
PIX=1) Binomialf100, 0.1) 


0.1 人 
Binomialf100, 0.2) 
0.08 了 


Binomialf100, 0.5) 


0.04 TS 


| 由 | 中 | | a 


100 120 


A-7 二 项 分 布 (100,P) 对 应 的 概率 质量 函数 ， 其 中 己 的 取 值 分 别 为 0.1、0.2 和 0.5 


请 读者 验证 BE(X)= Np 以 及 var(X)= MU-P) .这 个 随机 变量 撒 述 了 抛 搓 Y 次 硬 
币 之 后 正面 朝 上 的 次 数 ， 它 是 W 个 相互 独立 的 伯 努 利 随 机 变量 之 和 . 


图 A-8 二 项 分 布 是 伯 努 利 随 机 变量 之 和 


如 果 


n 


PX =m)= 0, n> 0, (A.3) 
到 


则 称 随机 变量 钱 是 关于 参数 4 的 泊 松 随机 变量 ,， 记 为 X=, P(X2). 
请 读者 验证 ECO =4 以 及 varCZ) =4 . 这 个 随机 变量 可 以 用 于 描述 一 个 人 一 天 收 
到 的 短信 数量 . 
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图 A-9 泊 松 概率 质量 函数 ,来 源 : 维基 百科 ( 男 见 彩 插 
A.3 一 般 的 随机 变量 


并 不 是 所 有 随机 变量 的 取 值 都 是 离散 的 . 对 于 电话 线 两 端的 电压 值 、 风 速 、 温 度 
以 及 下 一 位 顾客 来 到 收银 台 需 要 的 时 间 等 变量 ， 其 取 值 可 能 是 连续 集合 . 

实际 生活 中 ， 人 们 经 常用 有 限 位 数 的 数字 来 近似 表示 一 个 数值 . 例如 ， 以 摄氏 度 
为 单位 测量 温度 时 ， 通常 舍 去 小 数 部 分 ， 同 时 给 出 误差 的 上 下 限 . 因此 ， 具 有 任意 精 
确 度 要 求 的 系统 都 可 以 通过 离散 随机 变量 来 描述 . 然而 ,这 种 离散 化 带 有 很 强 的 人 工 
痕迹 ， 有 时 甚至 会 使 问题 复杂 化 . 例如 ， 在 牛顿 方程 F=ma 中 ， 用 离散 变量 来 描述 
a=dv()/dt 是 非常 奇怪 的 ， 因为 离散 的 速度 值 并 不 存在 导数 . 因此 ,虽然 计算 机 基于 
离散 变量 进行 计算 ,但 是 在 分 析 与 推导 时 采用 一 般 的 变量 更 为 合适 . 不 能 否认 的 是 ， 
离散 值 近似 的 方法 依然 发 挥 着 重要 的 作用 . 

首先 从 一 般 随 机 变量 的 定义 说 起 . 

定义 A.3 ”累积 分 布 函数 与 概率 密度 函数 


设 允 是 一 个 随机 变量 
(a) 苞 的 累积 分 布 函 数 已 Co) 定义 为 : 


F(x)=P(X < x),xeRh. 
(b) 当 F(x) 的 导数 存在 时 ,了 的 概率 密度 函数 定义 为 
fx (7X)=— SF). 0 


这 里 我 们 注意 到 ， 若 a<5， 则 
Pla<X<D=PX SD-PXED)=RD)- FD) fad 


最 后 一 个 表达 式 仅 在 导数 存在 时 有 意义 
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如 果 概 率 密度 函数 存在 ， 则 
f= xt de) F(x) = PX ex,xt+ do)). 


这 条 性 质 解释 了 “概率 密度 ”的 含义 . 


例 1 Ula,5] 
如 果 


1 
b-a 
则 称 邓 是 在 区 间 [a,5] 上 均匀 分 布 的 随机 变量 ( a<b )， 记 为 和 = U[a,5b]. 这 时 , 我 
们 有 


l{a x hb), 


fx(X)= 


F(x) = max {0, min{], 三 


小 . 


图 A-10 表明 了 均匀 分 布 随机 变量 Qw[a, 刀 的 概率 密度 函数 与 累积 分 布 函数 . 


图 A-10 随机 变量 UTa, 刀 的 概率 密度 函数 和 累积 分 布 函数 
例 2 ”Exp(H) 
如 果 


f(x)= Ae 1{x 0), 
则 称 卫 是 参数 为 4 的 指数 分 布 随机 变量 (和 4>0)， 记 为 全 =, Exp(4) .读者 可 以 验证 
F(x)=1-exp{-Ax}, x 二 0. 


因此 
P(X 宇 x)=exp{-Ax}, vx 宇 0. 
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图 A-11 ”指数 分 布 的 密度 〈 另 见 彩 捅 ) 


如 果 和 希望 更 直观 地 理解 以 上 内 容 ， 可 以 通过 用 一 个 定义 在 人 一 22, 一 2 0,222 
上 的 离散 型 随机 变量 了 来 近似 累积 分 布 函 数 为 F.() 的 随机 变量 了 .这 时 候 , 了 的 概率 
分 布 为 : 


P(Y=ne)=F,((n+1)e)-F(ne)= P(X el(ne,(n+l)e)). 


PC 


) 1 2 -2 : 9 10 


图 A-12 ”连续 型 随机 变量 的 离散 通 近 
对 于 了 的 函数 :8 一 RR ， 我 们 有 
MY) = hne)Fr (nt 1D)s) -Fr(ne)] | AWdF 


{中 最 后 一 个 式 子 为 当 & 一 0 时 求 和 的 极限 . 如 果 概 率 密度 函数 存在 ， 上 述 公 式 则 


h(Y) = | _h(x) fy (xdx. 


如 果 & 取 值 足够 小 ， 那 么 了 作为 邓 近 似 的 误差 就 足够 小 ， 因 此 ，E(h(7)) 会 无 限 趋 近 
于 E(A(X)) . 将 上 述 观 察 总 结 为 如 下 定理 . 
定理 A.4 随机 变量 函数 的 期 望 


设 闷 是 一 个 累积 分 布 函数 为 已 ()] 的 随机 变量 ,及 :路 -> 时 是 一 个 函数 ， 则 


EX)=| hdF 0) 
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若 苞 的 概率 密度 函数 f.() 存在 ， 则 


ECOCO) = he) fe dx 


例如 ,车 半 =p U[0,1] ， 则 
1 


1 
E(X’*) =| xd sh 


同时 ， 蕊 的 方差 为 : 
var( 7) = EEC) 一 ECO? -3 了-G 浅 


再 举 一 个 例子 . 设 蕊 =。 Exp(4)， 则 
ECOD=| xie “dx=-[ xde * = -xe “E+| edr 
=-A[e ”J = 4 
同时 ， 我 们 也 有 
E(X’) 到 | A _ -| rde 
一 一 [xze 和 下 下 人 ed 
=2] 
因此 ,了 凶 的 方差 为 : 
var(X)=E(X°)-EC) =2 和 -0 = 


下 面 介 绍 一 个 容易 混淆 的 例子 . 考虑 这 样 的 一 个 随机 变量 ， 它 取 值 0.3 的 概率 
是 0.4， 均 匀 分 布 在 [0, 1] 上 的 概率 是 0.6. 这 相当 于 抛掷 一 枚 得 到 正面 概率 为 0.4 的 
硬币 .如 果 得 到 正面 ， 则 随机 变量 取 值 为 X= 0.3; 如 果 得 到 反面 则 铸 从 [0, 1] 中 均 
匀 取 值 . 那么 ， 


F(x)=P(X x)=0.4xl{x 0.3}+0.6x, x e[0,1]. 
对 应 的 累积 分 布 函 数 曲线 如 图 A-13 所 示 . 现在 可 以 通过 引入 狄 拉 克 的 冲 激 函 数 作为 
阶 跃 函数 的 导数 来 获得 Fxx) 的 导数 . 
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0.6- - 
0.46(x -03) — 


图 A-13 混合 随机 变量 对 的 概率 密度 函数 和 累积 分 布 函 数 ( 男 见 彩 插 ) 


对 于 这 个 随机 变量 ， 可 以 发 现 " 
ECO=| 六 六 Gd 
= x0.45(x—0.3)dr+ [x0.6dr 


1 
=0.4(0.3)* +0.6——. 
k+l 


于 是 我 们 得 到 
var(X)= E(X’)-E(X) 


= 0.4(0.3)2 上 + 0.63-[0.4(0.3) 征 0.637 = 0.0596. 


还 可 以 推出 下 面 的 重要 定理 . 
定理 A.5 随机 变量 的 期 望 为 互补 累积 分 布 函数 的 积 


设 并 过 0 为 非 负 的 随机 变量 ， 则 


E(X)= | , P(X > x)dx. 


证 明 


Tl OVX)]=u x) Vx) tu(x)v (x) 


推导 出 分 部 积分 的 公式 : 
uC) adv) =[u)v OF -| vo) du . 


@ 狄 拉克 冲 激 函数 的 定义 为 全 gcc-aodr = g(a) ， 其 中 g(O) 是 在 4 点 连续 的 任意 函数 . 
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根据 分 部 积分 公式 得 到 
E(X)= | » XP (x)=-— 全 xd(1— F(x)) 
= {xFy OF +| -F(x = | P(X > dx. 


函数 P(X>x)=1-F(x) 被 称 为 互补 累积 分 布 函数 . 

例如 ， 若 人 =, Exp(4) ， 则 

1 
7 


E(X)= [P(x > x)dx = | exp{ Ax}dx = 


A.4 多 个 随机 变量 


人 们 常常 会 关注 彼此 关联 的 多 个 随机 变量 . 例如 ,一 个 人 的 身高 与 体重 ,发 送 机 
发 出 的 电压 值 与 接收 机 收 到 的 电压 值 ， 排 队 的 人 数 与 需要 等 等 的 时 间 . 这 些 都 是 相互 


关联 的 随机 变量 . 


图 A-14 身高 与 体重 是 有 关联 的 


要 研究 相互 关联 的 随机 变量 ， 不 能 单独 研究 每 个 随机 变量 ， 而 是 需要 全 面 的 描 


述 .考虑 下 面 的 例子 . 措 一 枚 骨 子 , 设 = 1 表示 朝 上 的 点 数 是 奇数 ,=0 表示 偶数 . 同 
时 , 设 Y= 1 表示 结果 在 集合 {2,3, 作 中 ,7 = 0 表示 结果 在 集合 {1, 5, 6} 中 .注意 
P(X=1)=P(X=0)=0.5，P(Y=])=PCY=0)=0.5 ， 因此 , 系 工 可 以 分 别 描述 独立 
抛掷 均匀 硬币 的 结果 . 然而 ， 当 我 们 把 蕊 和 了 放 在 一 起 考虑 时 ，(& 刃 就 无 法 表示 2 
次 独立 抛 硬 币 的 结果 了 . 比如 ,只 有 当 点 数 为 3 时 对 = 1 且 了 = 1, 这 样 的 概率 为 1/6. 如 
果 民 了 表示 2 次 独立 抛 均匀 硬币 的 结果 , 则 和 X=1 且 了 = 1 的 概率 应 当 是 1/4. 

在 离散 情况 下 ,我们 通过 列 出 所 有 可 能 的 取 值 和 相应 的 概率 值 来 描述 一 对 随机 变 


量 (X, 刃 ( 见 图 A-15 ): 
Pi,y = P(X =xX,Y=y;), Vi,]) e {l,m} x {,.,n} 


图 A-15 一 对 随机 变量 
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这 里 的 p, , 非 钠 且 和 为 1, 而 m、n 可 以 为 无 穷 大 . 这 样 的 描述 确定 了 随机 变量 (%, 
的 联合 概率 质量 函数 . 我 们 可 以 从 联合 概率 质量 函数 中 单独 分 离 出 了 和 了 的 概率 . 
比如 ， 


P(E=2)=> PO =%,7=y,)= 7p 
=1 j=1 


对 于 两 个 随机 变量 并 和 了， 如 果 
P(X=x,Y=y)= P(X =x)P(Y = y), Vx,y, 


则 称 卫 、 了 是 独立 的 . 


图 A-16 什么 是 独立 
在 折 山 子 的 例子 中 ， 注 意 到 


PX =LY=D)=7# PX -DRY =D)=7, 


因此 , 和 了 不 是 相互 独立 的 . 
对 于 函数 及:R? 一 RR， 定义 


E(h(X,Y))= > A(x, yi) Pi, 
上 式 在 求 和 不 出 现 oo - oo 时 成 立 . 注意 到 ， 如 果 有 h(x,y)= 有 h(x,7)+b(x,y)， 则 


E(h(X,Y)) = ZN ,Di ) Pr 


N 


= [h(x yi) +h, (x, yi) pe 


k=1 


= 之 AR + (Ki, pi DE 


-gt h(X,Y)+E(, (X,Y)), 


因此 期 望 具有 线性 性 质 
我 们 定义 和 和 了 的 协 方 差 为 
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cov(X,Y)=E((X—-E(X)Y -EE(Y))). 
根据 期 望 的 线性 性 质 ， 我 们 得 到 
cov(X,Y)=E(XY—E(X)Y — XEY)+EX)EY)) = EXY)-E(X)E(Y). 
当 cov(X, 站 =0 时 , 了 和 了 是 不 相关 的 ; 当 cov(X, 站 >0 时 , 和 和 了 是 正 相 关 的 ; 
当 cov(X, 站 <0 时 , 了 和 了 是 负 相 关 的 . 


Y 


和 
X 


图 A-17 图 中 的 随机 变量 为 下 相关 : 如 果 一 个 的 值 很 大 ， 另 一 个 的 值 往往 也 很 大 
在 前 面 毛 从 子 的 例子 中 ， 
cov(X,7) = E(XY)-E(X)E(Y) = - 一 < 0， 
此 蕊 和 了 是 负 相关 的 . 负 相关 性 表明 , 当成 大 于 平均 值 时 , 了 往往 会 小 于 平均 值 . 在 
我 们 的 例子 中 ， 当 和 = 1 时 出 现 的 结果 是 奇数 ， 而 且 了 = 0 的 可 能 性 要 大 于 了 = 1. 
关于 以 上 的 内 容 有 如 下 重要 结论 . 
定理 A.6 相互 独立 的 随机 变量 不 相关 


(a) 相互 独立 的 随机 变量 不 相关 . 
(b) 不 相关 的 随机 变量 不 一 定 相互 独立 . 
(c) 不 相关 随机 变量 之 和 的 方差 等 于 这 些 随机 变量 的 方差 之 和 . 


证 明 
(a) 设 人 和 了 相互 独立 ， 则 
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E(XY)= 2 X,Y =y)= RA x)P(Y = y) 
-Zou- RS y)) = E(X)E(Y). 
(b) 举 一 个 简单 的 例子 ( 见 图 A-18 ). 假设 (%, 等 可 能 地 在 如 下 4 组 数 中 取 值 : 
{(—1,0),(0,D),(0,—D),(1,0)}. 


则 ECXY)=0=E(X)E(Y) ， 所 以 和 Y 是 不 相关 的 . 但 是 P(X=-lLY=1)=0 
P(X =-])P(Y =1) ， 因 此 和 和 了 不 独立 . 


图 A-18 ”随机 变量 和 了 不 相关 也 不 独立 
(c) 设 人 和 了 是 不 相关 的 随机 变量 ， 则 
var(X +Y)= E((X+Y-E(X+Y))’) 
=E(X*+Y’*+2XY—- E(X) —-E(Y) -2E(X)E(Y)) 
=E(X’)- E(X) +E(Y’)-E(Y) 
= var(X )+var(Y). 
其 中 第 三 个 等 式 成 立 的 原因 是 E(XY) = E(X)E(7Y). * 
上 述 结论 可 以 推广 到 非 离 散 的 情形 . 对 于 一 对 随机 变量 人 站, 我 们 定义 其 联合 累 
积 概 率 2 Fy(x,y) ， 满 足 如 下 条 件 : 
Fry(x,y)= P(X Ex,Y Ey),x,yeR. 
当 这 个 函数 的 导数 存在 时 ， 定 义 它 为 联合 概率 密度 防 数 ， 记 为 fy y(x,y). 即 
Fey(oy)=| | ferluv) dudy, 
联合 概率 密度 函数 的 含义 是 
fry(x,y) dxdy=P(X el(x,x+dx)HY e(y,y+dy). 
例如 ,假设 


1 
fxy(X,y) = 一 1 人 c +y” 1},x,y eR. 
A 


则 称 (Z, 刃 均匀 且 随 机 地 分 布 在 单位 圆 内 . 
理解 随机 变量 的 一 个 直观 方法 是 ， 在 平面 上 以 @ > 0 为 间距 夯 出 网 格 ， 并 用 如 下 
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(X,Y)= (me,ne) w.p. fyy(me, ne)e’. 


在 这 种 近似 下 ， 
E(h(X,Y))= > h(me,ne)fyy (me,ne)e’ 


| el St y) dxdy. 
下 面 将 其 整理 成 为 正式 的 定义 . 


定义 A.7 设 (XX, 了 ) 是 一 对 随机 变量 ， 函数 及 : 思 政 呐 ， 当 联合 概率 密度 函数 
存在 时 ， 有 


EC ID 二 | | hp) fey (x py) drdy. 0 


该 定义 保证 了 期 望 是 线性 的 . 和 前 面 的 思路 相仿 , 我 们 可 以 定义 对 和 了 的 协 方差 
等 概念 . 


定义 A.8 独立 


如 果 
P(XYeAYeB)=P(X e AP(Y eB) 
对 于 任意 实数 集 4 和 巴 成 立 ， 则 称 随 机 变量 和 和 了 是 独立 的 . 0 


经 过 简单 的 推算 可 以 得 到 ， 当 联合 概率 密度 函数 存在 时 ， 两 个 随机 变量 独立 的 条 
件 是 当 且 仅 当 


fry (Xp)= fx (f(y), VX,y eR. 
对 于 给 定 的 随机 变量 了 对 和 任意 函数 g:R 一 商 ，g(X) 也 是 一 个 随机 谈 量 . 注意 
g(X) eA. 当 目 仅 当 Eee (A)= {reRh|ger) en. 
当然 ， 它 们 实际 上 是 一 回 事 . 
下 面 是 一 条 很 有 用 的 结论 . 
定理 A.9 独立 的 随机 变量 的 函数 是 相互 独立 的 
设 针 和 了 是 相互 独立 的 随机 变量 ,g 和 有 :只 一 呐 是 任意 的 函数 , 则 g(X) 
与 h( 门 是 两 个 相互 独立 的 随机 变量 . 


证 明 


SL 
诗意 


附 对 A 概率 论 基础 知识 忆 25 


P(g(X)e A,h(Y)eB)= P(X eg (A),Y eh'(B)) 
=P(X eg (A)P(Y eh (B)) 
= P(g(X)e A)P(h(Y) eB). 和 


A.4.1 相互 独立 随机 变量 的 最 大 值 与 最 小 值 


人 们 经 常 需要 考虑 相互 独立 随机 变量 的 最 大 值 与 最 小 值 ， 基 本 的 想法 如 下 . 设 忒 
和 了 是 相互 独立 的 随机 变量 ,， 并且 VV=min{X,Y} 、 灰 =max{Z 六 ， 则 
P(V >v)=P(X >v,Y>v)=P(X >v)P(Y >v). 


同时 ， 
PWw)=P(X <w,YEw)=P(X <w)PYw). 

这 些 结论 足以 进行 很 多 有 用 的 计算 . 

例如 , 设 X= Ep(4)、Y= Exp(n)， 则 

P(V >v)=P(X >v)P(Y >v)=exp{—-Av}exp{—/wv} =exp{-(4+1)v}. 

因此 ，2 个 指数 分 布 随 机 变量 的 最 小 值 仍然 服从 指数 分 布 ， 其 率 参数 等 于 原来 的 率 参 
数 之 和 . 

设 X 和 了 是 独立 同 分 布 的 U[0, 耻 变量 ， 则 

PW <w)=P(X WPY Ew)=w,wel0,1l. 

设 4 和 B 是 两 个 事件 ， 其 中 P(83) > 0. 在 已 知 B 的 情况 下 ， 定 义 4 的 条 件 概率 

PD4 相 如 下 : 


P[A|B]:= P(A:B)/P(B). 


P[4IB] 表 示 的 是 ,已 知 实验 结果 落 在 事件 B 定义 的 集合 内 ， 则 该 结果 落 在 事件 4 定义 
集合 的 概率 . 举例 来 说 ， 假 设 一 个 随机 性 实验 有 1000 个 等 可 能 出 现 的 结果 . 并 假设 
事件 4 包含 4| 个 可 能 出 现 的 结果 , 事件 B 包 含 |B3I 个 可 能 出 现 的 结果 . 如 果 已 经 知道 结 
果 落 在 集合 内， 那么 它 可 能 是 |B| 个 结果 中 的 任意 一 个 .此 时 ,结果 同时 落 在 集合 4 
中 的 概率 就 等 于 集合 B 中 的 结果 同时 属于 集合 4 的 比例 ， 即 
14:B| |4:B|/1000 P(A4.B) 
IB| |B8|/1000 PCD) 


注意 到 ， 根 据 这 个 定义 ， 当 4 和 B 相互 独 立时 , 我 们 有 PL4|B]= PC .这 个 结 
果 非 常 直 观 . 同时 得 到 : 


P(A:B)=P[A|B]P(B). 
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A.4.2 独立 随机 变量 之 和 


设 式 和 了 是 独立 的 随机 变量 ， 并 且 Z = 和 +7 .我 们 希望 借助 f(x) 和 f(y) 来 计 
算 f(z)， 思路 是 
PZ el(z,z+dz)=| P(X extde), Ye(z-x,z—x+dz)). 


因此 ， 
万 (dz=| fr Of (zndxdz. 
即 
f= fr -rd =fy # f(z), 
这 里 gxh 表示 两 个 函数 的 卷 积 . 如 果 上 过 信号 与 系统 这 门 课 , 你 就 会 明白 如 何 采 用 平 
移 与 反 宰 ” 作 图 法 来 计算 卷 积 . 
A.5 随机 向 量 


在 很 多 情况 下 ， 我 们 感 兴 趣 的 是 随机 变量 组 合 的 性 质 . 
定义 A.10 ”随机 向 量 


随机 向 量 外 = (XY,…, 陡 ,) 是 以 随机 变量 为 元 素 构成 的 ， 它 的 性 质 可 以 用 
联合 累积 分 布 函 数 来 表示 : 


F(X POCO Sx, ,YX, SX), x eR,i=l,…,n. 
相应 的 联合 概率 密度 函数 f(x) 满足 : 
忆 On ) =| fr bay) du du 
前 提 是 这 个 函数 存在 ， 此 时 ， 
fx dc = P(X, e[x,x, +dx],i=1,…,n). 0 


综 上 所 述 , 联合 累积 分 布 函 数 和 联合 概率 密度 函数 描 述 了 该 随机 向 量 的 取 值 落 在 
8" 某 个 子 集 中 的 概率 . 
与 两 个 随机 变量 的 情形 类 似 ， 当 联合 概率 密度 函数 存在 时 ， 可 以 得 至 
EX) = [| fy ddu,. 


下 面 是 一 个 我 们 会 经 常用 到 的 定义 . 


| 
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定义 A.11 期 望 与 协 方差 
设 时 和 了 是 随机 向 量 ， 定义 
E(X)=(E(X),…, E(X,)) 
.=E(X-E(XNX -EX)) 
cov(X,Y)=E(X-E(XNY -EY)). 


当 cov(X, 耻 =0 时， 即 对 于 所 有 的 i 和 j 都 且 和 YY 不 相关 ， 则 称 生 和 


了 是 不 相关 的 . 
因此 ， 随 机 向 量 的 期 望 就 是 各 分 量 期 望 组 成 的 向 量 . 类 似 地 ， 随 机 年 阵 的 期 望 就 
是 各 分 量 期 望 组 成 的 矩阵 . 随机 向 量 和 和 了 的 协 方差 就 是 各 分 量 协 方差 组 成 的 矩阵 . 事 


是 
实 上 ， 


0 


cov(X,¥),, = E((X,—E(X,)(Y, -E(Y,)) =cov(X,,Y,). 


同时 ， = cov(X,X)=:cov(X). 


作为 简单 的 练习 ， 请 读者 验证 
cov(AX +a, BY +b)= Acov(X,Y)B.. 


正 交 与 投影 
在 估计 问题 中 ， 正 交 与 投影 的 概念 是 很 重要 的 . 


设 X 和 了 是 两 个 随机 向 量 . 如 果 
E(XY")=0, 


日 仅 当 每 一 个 正 交 于 每 一 个 了. 


则 称 社 与 了 正 交 , 记 为 XY .因此 ,与 7Y 正 交 当 | 
注意 到 当 E(X)=0 时 ， 关 上 了 当日 仅 当 cov(X,7)=0. 事实 上 ， 因 为 E(X)=0， 


所 以 
cov(X,¥) = ECXY) -ECX)E(Y) = E(XY"), 


下 面 是 一 个 很 有 用 的 结论 ( 见 图 A-19 ). 


Ye 


图 A-19 ”几何 视角 的 正 交 


E(QIY-XI)=E(Y-X)(Y-X)=E(YY)-2E(X'Y)+E(XX) 
=E(IY I)-2E(XY)+E(X)). 
如 果 XJLI7 ， 则 E(XY)=0 对 所 有 i 和 j 均 成 立 . 那么 E(XY)= 
2,E(X,Y)=0. 结论 得 证 . 4 


A.6 随机 变量 的 函数 的 概率 密度 


假如 随机 向 量 和 是 WR" 上 的 随机 变量 并 具有 概率 密度 函数 f(x) ， 艺 数 
g :9 全 多 "是 一 个 可 导 函 数 . 设 YY=g(X) ， 该 怎样 计算 f(y) 呢 ? 
下 面 从 线性 函数 的 情况 人 手 ， 然 后 解释 一 般 的 情况 . 


A.6.1 线性 变换 


设 忒 的 概率 密度 函数 为 f(x) ，Y=aX+b(a > 0) . 该 怎样 计算 f(y) 呢 ? 
如 图 A-20 所 示 ， 


Pl(Y e(y,y+dy))= Pl(aX +b el(y,y+dy)) 
=P(Xe(a (ypy-b),a (y+dy -Db))). 


图 A-20 ”线性 变换 了 = axX+b 


因为 P(Z e(z,z+dz))= f.(2Z)dz ， 所 以 : 
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pa 
因此 
f= , 其 市 三 a 


a <0 的 情况 与 之 类 似 ， 重复 上 述 推理 过 程 ， 可 以 得 到 


/0 其 中 aX4b=y. 


那么 对 于 二 维 的 随机 向 量 ， 情 况 又 是 如 何 呢 ? 设 怀 是 一 个 随机 向 量 ， 它 在 % 上 

取 值 ， 概 率 密度 函数 为 /.(X). 令 
Y= AX+Db, 
这 里 4eR””，bpeR’. 

图 A-21 表明 , 在 线性 变换 下 , 矩形 [x,x + dm]x[x,xs+dxy] 变 换 成 为 一 个 平行 四 
边 形 ， 其 面积 为 | 4| dxdx, ，| 4 | 表示 和 矩阵 4 行列 式 的 绝对 值 ， 所 以 ,了 的 取 值 落 在 面 
耻 |41 dxdx, 中 的 概率 为 f(x)dxmdx, . 同时 ， 由 于 了 的 取 值 落 在 某 个 区 域内 的 概率 与 
这 个 区 域 的 面积 成 正比 ， 的 取 值 落 在 面积 | 4|dxdx, 中 的 概率 也 可 以 表示 为 
(Jy)14|1dxdx, ， 这 里 y= 4x+b . 因此 ， 

FO Addx, = fy(xdxdx,， 其 中 y= Ax+2b. 


所 以 


f= 这 里 y=Ax+4b. 


事实 上 ， 这 个 结论 对 n 个 随机 变量 也 同样 适用 . 


面积 = |4|dxidx; 
Av+b 
Y. 
en 4 
y=Ax+b 
> > 
dx1 
X1 


图 A-21 线性 变换 了 = AX+b 


于 这 个 结论 十 分 重要 ， 将 其 总 结 为 如 下 定理 ， 
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定理 A.13 ”线性 变换 中 概率 密度 的 变化 
设 了 = AX+b， 其 中 4 是 一 个 nxn 的 非 奇 异 和 矩阵 ”那么 


所 (=fr09， 其 中 e+b=y. (AS) 


当 4 为 奇异 矩阵 时 , 随机 向 量 Y = 4X+b 只 在 小 于 的 维 数 中 取 值 . 这 种 情况 下 ， 
向 量 了 在 "中 没有 密度 分 布 的 概念 .作为 一 个 简单 的 例子 , 设 XY 和 了 XY, 相互 独立 且 
均匀 分 布 在 [0, 1] ( 见 图 A-22 ). 

设 


图 A-22 ”奇异 变换 了 = ( 闷 ， 奴 ) 


那么 了 在 RR 中 是 没有 概率 密度 的 . 假设 了 在 8 中 有 概率 密度 ， 则 
L {yy pHO0 yD, 


P(Y eD)=|| f(y)dy =0. 
最 后 一 个 等 式 成 立 的 原因 是 工 在 加 ?中 的 测度 为 0, 但 是 P(Y eZL)=1. 
A.6.2 非 线 性 变换 
当 7 了 =g(X) 且 g() 为 非 线性 函数 时 ， 情 况 更 为 复杂 .首先 来 看 一 个 例子 . 


例 1 
设 和 = U[0,1] 且 Y= *”， 如 图 A-23 所 示 . 对 于 0< e 和 有 和 1， 了 es[)y+2] 当 且 仅 
当 和 ese[,x+9) ， 这 里 


[a [a 


= = ， 其 中 g(x)=x =y. 
By gM)=% = 
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图 A-23 对 = pU[0, 1] 时 的 变换 了 = 联 ( 另 见 彩 插 


Wet 


P(Y ely,y+é))= fy(y)eto(e)™ 
而 且 


P(X el[x,x +6))= f(x)5+0(6). 
再 加 上 o(6) = o(e) ， 我 们 得 到 : 


方 (0)E+o()= 广 人 )O+o(E)= g(x Ce + ol) 
所 以 
fy(y)= 本 re g(X)=7y. 
在 这 个 例子 中 , 我 人 有 g(x)=2x =2Vy , 且 fi(m)=1， 因此 ， 
1 
fy( )= . 
了 2 厅 
例 2 


现在 来 看 一 个 更 为 复杂 的 例子 . 设 了 7=gC) = , 邓 取 值 范 围 为 [-1, 1]， 概 率 密 


f(x) = + xe[-11]. 


Q@ o(e) 表示 了 这 样 一 个 关于 s 的 函数 : 2 2 一 0 . 
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考虑 一 个 y 的 取 值 ye (0,1) . 注意 到 现在 有 两 个 x 的 取 值 可 以 使 g(x)=y， 


=Vy 和 x, =-Vy， 因 此， 


Pl(Y el(y,y+é))= P(X e(x,X +0))+P(X el(x, -06,,x,)), 


其 中 
i 所 a 到 
SO0) J | g(x%,)| 
因此 
fy(VE+o(E)= g(x 0 ote) 
由 此 可 以 推出 
fy(y) = pe je) 
在 这 个 例子 中 ,我 们 有 
2 


10- + Vy) = a 


图 A-24 多 e[-1,1] 时 的 变换 了 = 有 耿 ( 另 见 彩 插 


oh 


分 


另 


| 
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例 3 
下 一 个 例子 针对 一 般 的 可 导 函 数 g() . ae 如 果 了 = gC ， 那 么 
fr(y)= 2 a TO) (A.6) 
并 对 所 有 使 得 g(x,)=y 的 x 进行 求 和 . 
例 4 


多 维 的 情况 如 何 呢 ? 和 前 面 一 样 ， 重 要 的 思路 是 : 从 局 部 来 看 ,x 到 y 的 变换 是 
线性 的 . 注意 到 


g(t do) sg (0+ Dg sgCO+7(CDdr 
这 里 矩阵 7(x) 的 [i, 分 量 为 


类 ge) 


这 是 函数 g:%8” 一 R" 的 雅 可 比 矩 阵 . 所以， 从 局 部 来 看 ， 这 个 变换 可 以 近似 为 
了 = AX+b, 其 中 b= g(x)，4=J(x). 那么 , 在 使 得 g(x)=y 的 x 附近 ，fy 可 以 作 
近似 于 线性 的 变换 : 它 由 7(x) 的 行列 式 进行 了 拉 伸 . 
总 结 上 述 示例 ， 我 们 得 到 如 下 定理 . 
定理 A.14 ”随机 变量 函数 的 密度 
设 是 为 8 上 的 随机 向 量 并 具有 概率 密度 函数 f/, ， 且 了 = 8g&(X) ， 函 数 
8:R” 一 RR" 是 可 导 函 数 ， 那 么 


fy(y)= Pee) 


这 里 对 所 有 使 得 g(x,)=y 的 x; 求 和 .|J(x,) | 表示 雅 可 比 短 阵 行列 式 在 
Xi; 点 的 绝对 值 . 
我 们 举 一 个 例子 来 论述 这 一 结论 . 设 半 =(X,X,) ,其 中 XY, 是 独立 同 均 匀 分 布 的 


U[0,1] 随机 变量 . 考虑 如 下 变换 : 
¥ =X +X?, Y=2X.X,,. 


则 
NX 2 | 


71s) -| 2x | 


17CoOF4I2 一 总 上， 
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对 于 y 的 每 一 组 取 值 ，x 都 有 两 组 取 值 与 之 对 应 ， 分 别 是 


= 过 NPty tN 各 = 二 N+ 及 一 N 力 一 
2 2 


[nf 殊 JH- 克 ] 和 加 [Ynr+V- 世 ] 
由 这 些 取 值 得 到 
ICOF -区 
所 以 ， 对 于 任意 的 y 值 ， 我 们 有 : 
fi(W) = 


3 。 


1 


A.7 参考 资料 


要 完全 想 掌握 概率 论 ， 好 奇 心 、 直 觉 和 耐心 都 是 必 备 的 素质 ， 当 然 也 少不了 好 书 
的 帮助 . 对 我 个 人 而 言 ，Pitman 的 Probability 大 有 神 益 .David Aldous 的 主页 提供 了 
很 多 充满 智慧 .启发 灵感 的 概率 论 评 述 .教材 Introduction to Probability Probability and 
Random Processes 和 Probability and Measure , Third Edition 都 很 有 参考 价值 . Wong 和 
Hajek 的 Stochastic Processes in Engineering Systems 一 书 对 本 书 话题 提供 了 更 为 深入 的 
讨论 .强烈 推荐 Gallager 的 新 书 Stochastic Processes: Theory for 4Applications， 它 能 够 
很 好 地 补充 本 书 内 容 . 

互联 网 是 搜集 各 种 资料 的 强大 工具 ， 包 括 概率 论 . 我 经 常 开玩笑 说 :“ 不 需要 记 
笔记 ， 这 些 知识 都 在 网 上 呢 .” 


A.8 练习 题 


1. 判断 下 列 论述 是 否 正确 . 

(a) 没有 交集 的 事件 是 相互 独立 的 . 

(b) 随机 变量 之 和 的 方差 总 是 它们 的 方差 之 和 . 

(c) 随机 变量 之 和 的 期 望 总 是 它们 的 期 望 之 和 . 

. 举 出 满足 下 列 条 件 的 事件 4、B、C: 

PILA|C]< P(A), PIA|B]> PC 并且 PIB| A4]> P(B). 

3. 抛 搓 两 枚 均匀 的 骨 子 ， 记 事件 4 为 “两 枚 散 子 点 数 之 和 小 于 等 于 8”， 记 事件 
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也 为 “第 一 枚 仍 子 的 点 数 大 于 等 于 3”. 

(a) 这 里 的 概率 空间 (Q, 大 ,P) 是 什么 ? 

(b) 计算 P[4IB] 和 P[B|4]. 

4. 一 个 人 不 停 地 抛 措 一 枚 均匀 硬币 . 

(a) 在 开始 抛掷 的 前 1000 次 中 ， 正 面 朝 上 的 次 数 是 偶数 的 概率 是 多 少 ? 

(b) 在 开始 抛掷 的 前 4 次 中 ,正面 朝 上 次 数 多 于 背面 彰 上 的 概率 是 多 少 ? 

5. 一 个 人 不 停 地 抛掷 一 枚 均匀 硬币 . 

试 证 明 : 抛 出 正面 的 次 数 总 是 多 于 抛 出 背面 的 概率 为 0. 

6. 设 和 和 了 是 率 系数 为 1 的 独立 指数 变量 . 求 Z= XH 了 的 概率 密度 函数 . 

7. 从 洗 匀 的 52 张 扑 克 牌 中 随机 抽取 . 假设 抽取 了 4 张 牌 ,数值 都 在 2 到 10 之 间 ， 
如 方块 2、 红 桃 10、 草 花 6 以 及 黑 桃 2. 试 编写 Matlab 程序 ,计算 黑色 扑克 牌 上 数值 
之 和 恰好 是 红色 扑克 牌 上 数值 之 和 2 倍 的 概率 . 

8. 考虑 [0, 1] 上 的 均匀 分 布 .在 [0, 1] 区 间 上 找到 3 个 子 区 间 A、B、C, 使 得 PL4IB] > 
P(A)H PICIB] < P(O). 

9. 设 式 =， G(p) ， 即 是 关于 参数 p 的 几何 分 布 . 计算 BCZ) . 

10. 设 了 和 了 为 独立 同 分 布 的 U,[0, 1] 变量. 计算 B(max{X,Y 了 -min{X,7}). 

11. 设 人 =, P(4) ， 即 是 关于 参数 和 4 的 泊 松 分 布 . 求 P (XX 为 偶数 ). 

12. 考虑 Q=[0, 1] 的 均匀 分 布 随机 变量 . 设 X(@)=l{a<w<b} 且 Y=l{c<w<d}， 
其 中 0<a<b5<1，0<c<d<1. 假设 XY 和 了 7 是 不 相关 的 ， 那么 它们 是 否 一 定 独立 ? 

13. 设 钱 和 了 为 独立 同 分 布 的 U[-l 1 变量 , 并 定义 Z=XY . 和 Z 是 不 相关 的 
吗 ? 它们 相互 独立 吗 ? 

14. 设 和 =，V[-L3]，7= 友 .计算 方 () . 

15. 有 一 根 1 米 长 的 棍子 ， 沿 着 棍子 随机 且 独 立地 选取 点 浆 和 了， 并 从 这 两 点 处 
截断 ， 试 求 可 以 用 截 得 的 三 段 拼 成 一 个 三 角形 的 概率 ? 

16. 有 两 个 朋友 偶尔 去 酒吧 ,他 们 去 的 时 间 都 均匀 分 布 在 下 午 5:00~6:00 且 相 互 独 
立 . 每 个 人 到 达 后 ， 都 会 等 待 另 一 位 朋友 10 分 钟 . 请 问 他 们 能 相遇 的 概率 是 多 大 ? 

17. 选取 VV 三 0 使 得 让 =, Exp(2) ， 并 选取 独立 于 VV 的 9=, UV[0,2x] . 设 
=Vcos(0) ，Y=Vsin(9) . 计算 f(x,y). 

18. 设 Z 和 1/2Z 是 具有 相同 概率 分 布 的 随机 变量 ,并 日 存在 E(2Z1|) .证 明 E(2Z|) 宇 1. 

19. 设 世人 1 是 期 望 为 0、 方 差 为 1 的 独立 同 分 布 随 机 变量 . 设 
Y=(X + )/n. 

(a) 计算 var(Y). 

(b) 证 明 P(Z| 兰 习 一 0，72 一 对 于 所 有 的 e>0 都 成 立 . 

20. 设 和 和 了 了 为 独立 同 分 布 的 V[0H 变量 , Z = 4(X,7) ,其 中 4 是 已 知 的 2x2 拢 
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阵 . 求 Z 的 概率 密度 函数 . 


21. 设 对 =, U[1,7] ，Y=In(X)+3VX . 证 明 E(Y) 三 7.4. 
22. 在 [0, ?上 独立 上 且 均匀 地 选取 点 和 了 Y. 试 计算 EQ XY-YIP). 
23. 设 (有 是 在 以 (-1, 0)，(1, 0)，(0, 1) 为 顶点 的 三 角形 内 随机 选取 的 点 .计算 


cov(X, 7). 
24. 设 随 机 变量 蕊 的 期 望 为 1， 方差 为 0.5， 证 明 


E(2X +3X*+X')8.5. 
25. 设 人 了 、Z 独立 同 分 布 , 均匀 分 布 于 {-1, 1} ( 即 , 等 可 能 地 取 值 -1 或 1). 设 


V= XY V=Y2, V=X7. 
(a) 急 , 万 , 态 } 是 两 两 独立 的 吗 ? 请 给 出 证 明 . 
(b) 人 急 , 万 ,万 } 是 相互 独立 的 吗 ? 请 给 出 证 明 . 


26. 设 事 件 4 和 B 的 概率 为 P(4)= 3/4，P(B) = 1/3. 证 明 到 <P(ANMB)E 3 ,并 


举例 说 明 这 里 的 上 界 和 下 界 都 无 法 再 作 改 进 . 找 出 P(4UB) 的 取 值 范围 . 


27. 一 个 例子 ,使 得 事件 4、B 和 C 两 两 独立 ， 但 并 不 是 相互 独立 . 


28. 发 电站 用 N 台 发 电机 为 城市 供电 .每 一 台 发 


电机 出 故障 的 概率 都 是 p， 彼 此 


独立 . 如 果 少 于 (0 三 三 WN) 台 发 电机 供电 , 该 城市 将 会 断 电 . 试 求 断 电 的 概率 ? 写 
一 段 Matlab 程序 , 计算 对 于 任意 的 Nk 和 p, 这 个 概率 值 是 多 大 . 设 N= 100,p=0.1， 


画 出 大 从 0 到 N 变 化 时 的 断 电 概率 曲线 . 
29. 图 A-25 展示 了 一 个 系统 的 可 靠 性 模型 . 图 中 


的 边 代表 系统 中 的 元 素 . 编号 为 


i 的 边 有 pi 的 概率 正常 工作 ， 有 1-pi 的 概率 不 工作 ， 每 条 边 与 其 他 的 边 独立 。 当 节点 


S 和 7 被 连接 起 来 时 ， 这 个 系统 能 够 正常 工作 .也 就 是 说 ， 这 个 系统 由 两 个 可 以 相互 


百代 的 子 系统 构成 .每 一 个 子 系统 都 由 一 些 元 素 构成 


(a) 计算 这 个 系统 能 正常 工作 的 概率 . 


到 某 一 个 叶子 节点 存在 工作 通路 的 概率 是 多 大 ? 


图 A-25 系统 的 可 靠 性 模 


(b) 假设 这 个 可 靠 性 模型 是 n 层 的 二 又 树 ， 每 一 条 边 失 效 的 概率 是 p， 从 根 节 点 


30. 设 和 了 为 独立 同 分 布 的 UV[0, 1 变量 , 且 V=3X¥+Y,， WV=X 了 +Y .计算 
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frw (VY, Ww) . 

31. 设 随 机 变量 也 了 为 独立 同 分 布 的 U[0,1] 变量, 目 V=X+Y, W=X-Y. 

(a) 证 明 天 和 丈 是 不 相关 的 . 

人 b) 六 和 丈 是 独立 的 吗 ? 证 明 你 的 结论 . 

32. 图 A-26 展示 的 RC 电路 被 用 作 简 单 计时 器 . 起 初 , 电容 通过 电源 充电 5V. 在 
1=0 时 拨 动 开关 ， 电 容 开 始 通过 电阻 放电 .有 一 个 外 部 电路 检测 电压 VD) 降 低 到 小 于 


1V 需要 的 时 间 z . 
1=0 | 下 
' 本 
C 


图 A-26 用 作 简 单 计 时 器 的 电路 .外 部 电路 检测 电压 V(D 降 低 到 小 于 1V 的 时 间 


(a) 计算 出 zt 关 于 R 和 CC 的 表达 式 . 

(b) 现在 假设 R 和 C 是 相互 独立 的 随机 变量 , 分 别 均匀 分 布 在 [R,(1 -a),R,(+a)] 
和 [C,(-s),C,(+e)] 上. 计算 zt 的 方差. 

(0) 设 世 是 R= Ro 有 旦 C=C, 时 7 的 取 值 ,对 于 一 个 很 小 的 值 s ， 找 到 |r- |> 57。 
的 概率 最 大 值 . 

33. 甲 和 乙 一 起 玩 硬币 配对 的 游戏 .在 这 个 游戏 中 ， 他 们 分 别 决定 展示 自己 手中 
硬币 的 哪 一 面 . 当 两 枚 硬币 不 同时 ， 甲 获胜 ; 否则 乙 获胜 . 

(a) 假设 甲 选择 正面 的 概率 P, s[0,1] . 计算 乙 展示 正面 的 概率 PP 取 多 少 才能 使 他 
获胜 的 概率 最 大 . 

(b) 依据 你 计算 出 的 结果 , 分 别 找 到 对 甲 和 乙 来 说 P 和 的 最 佳 取 值 . 请 说 明 在 
这 样 的 取 值 下 ， 双 方 不 能 进一步 通过 改变 P, 筷 来 提高 获胜 的 概率 .具有 这 种 性 质 
的 方案 被 称 为 纳什 均衡 . 


图 A-27 甲 和 乙 玩 硬币 配对 游戏 


34. 你 在 玩 某 一 种 概率 游戏 ,每 一 步 获 胜 的 概率 都 是 pb. 你 的 起 始 资 金 是 1 美元 .每 
一 步 ， 如 果 获 胜 就 可 以 得 到 1 美元 ， 失 败 就 输 掉 1 美元 . 请 计算 在 破产 前 能 够 积累 到 
4 美元 的 概率 . 
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35. 你 在 抽 居 里 发 现 了 2 枚 旧 电 池 ， 它 们 能 产生 的 电压 值 为 XY 和 了 Y. 设 式 和 了 为 
独立 同 分 布 的 w[0,1.5] 变量 . 

(a) 如 果 把 2 枚 电池 串联 ， 能 产生 超过 2V 电压 的 概率 是 多 少 ? 

(b) 至 少 有 1 枚 电池 的 电压 值 大 于 1V 的 概率 是 多 少 ? 

(c) 2 枚 电池 的 电压 值 都 大 于 1V 的 概率 是 多 少 ? 

(d) 你 在 抽 屋 里 找到 了 更 多 类 似 的 电池 . 逐一 检测 它们 ， 直 到 找到 1 枚 电池 的 电 
压 值 超过 1.2V. 你 需要 检测 的 电池 个 数 期 望 值 是 多 少 ? 

(e) 逐一 检测 这 些 电 池 ， 直 到 连续 找到 2 个 电压 大 于 1.2V 的 电池 . 你 需要 检测 的 
电池 个 数 期 望 值 是 多 少 ? 

(1 逐一 检测 这 些 电 池 并 且 记 录 其 电压 值 ， 直 到 其 中 2 个 的 电压 值 之 和 超过 
2.5V. 你 需要 检测 的 电池 个 数 期 望 值 是 多 少 ? 


和 


图 A-28 电池 


36. 你 想 要 卖 掉 旧 手 机 . 朋友 甲 和 乙 都 对 此 感 兴趣 .你 知道 他 们 对 手机 的 估价 分 
别 为 和 YY， 并 且 针 和 了 均匀 同 分 布 于 U[50,150] .你 提议 进行 如 下 的 拍卖 : 你 标价 
为 R， 如 果 甲 出 价 4、 乙 出 价 B， 那 么 手机 归 出 价 较 高 者 所 有 ( 前提 是 这 个 价位 高 于 
R ). 这 位 竞价 者 以 标价 和 男 一 位 竞价 者 出 价 中 的 较 大 值 作为 成 交 价 . 也 就 是 说 ， 如 果 
A<R<B， 那么 乙 可 以 买 到 手机 ， 付 款 R， 如 果 R<4<B， 那 么 乙 可 以 买 到 手机 ， 付 
款 4. 

(a) 如 果 4=X，B = 了， 那么 售 价 的 期 望 值 是 多 少 ? 

(b) 找到 值 ， 使 期 望 得 到 的 付款 最 多 . 

(c) 我 们 定义 ， 当 甲 得 到 手机 且 付 款 为 己 时 其 盘 余 是 系 P;， 没有 得 到 手机 时 盈余 
是 0. 乙 的 盘 余 也 同样 加 以 定义 .请 证 明 甲 出 价 4 = 了 时 鳃 余 的 期 望 值 最 大 ; 对 乙 也 
有 类 似 的 结论 .我 们 称 这 一 场 拍卖 是 激励 相 容 的 ， 同 时 也 是 收益 最 大 化 的 . 
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图 A-29 甲 和 乙 对 手机 的 估价 分 别 为 了 和 了 ， 并 分 别 出 价 4 和 B 


37. 方 阵 5 的 迹 tr(5) 定 义 为 它 的 对 角 线 元 素 之 和 . 设 4 是 一 个 mxn 和 矩阵 , B 是 一 
个 nxm 和 矩阵 . 证 明 tr(4B)=tr(B84). 

38. 设 二 是 某 个 随机 向 量 半 的 协 方差 . 证 明 对 于 所 有 的 实 向 量 we 都 有 wu 二 0 . 

39. 你 希望 给 自己 的 房子 购置 太阳 能 电池 板 . 折算 太阳 能 电池 板 有 效 期 内 的 花费 
以 后 , 已 知 当 电 池 板 能 传送 的 最 大 功率 为 K 时 ,每 单位 时 间 需 要 的 费用 为 agK . 假设 
太阳 能 电池 板 传 送 的 实际 功率 Z 服从 均匀 分 布 U[0,K]. 

所 需 电能 X 的 分 布 为 U[0, 4] ， 并 且 假 设 这 和 太阳 能 电池 板 传输 的 功率 是 独立 
的 . 如 果 太 阳 能 电池 板 的 最 大 功率 是 K， 那 么 单位 时 间 内 的 花费 是 

QK+Pmax{0,X —2}, 


其 中 后 一 项 是 需要 从 电网 购买 的 电能 .请 计算 所 购买 太阳 能 电池 板 的 最 大 功率 K， 
使 得 单位 时 间 的 费用 期 望 值 最 小 . 


图 A-30 ”应 该 为 房子 购置 多 大 的 太阳 能 电池 板 


40. 现在 需要 你 设计 一 个 散 列 表 来 存储 与 复原 一 个 网 络 的 数据 .要 存储 元 素 的 名 
称 长 度 都 是 比特 ,而 你 希望 把 它们 存储 在 m 比特 的 空间 中 . 假设 这 些 元 素 是 均匀 同 
分 布 的 , 随机 分 布 在 {1,…,2”} . 一 共有 天 个 元 素 需 要 存储 . 构造 这 个 散 列表 的 花费 是 
Q2”, 一 次 冲突 的 花费 是 8 . 当 2 个 或 2 个 以 上 元 素 占据 散 列表 中 相同 位 置 时 会 发 生 
冲突 ， 试 确定 m 的 值 ， 使 得 构造 散 列 表 及 冲突 带 来 的 花费 最 少 . 


PHB 
线性 代数 基本 知识 


主题 : 答 阵 及 向 量 的 操作 ， 行 列 式 ， 求 着 ， 特 征 分 解 ， 若 当 标 准 型 ， 奇 
异 值 分 解 


B.1 纸 阵 符号 


处 理 多 个 实数 值 数 据 的 时 候 ， 常 常 通 过 和 矩阵 和 向 量 来 进行 线性 运算 . 
对 于 me{l,2,…} ， 在 %” 中 的 每 个 列 向 量 ”都 由 m 个 实数 纵向 排列 组 成 . 这 m 
个 实数 叫 作 向 量 的 元 素 . 下 面 是 一 些 R 中 列 向 量 的 例子 : 


2 -0.2 0 
"=|-15|，m=| 3.1 |, 0=|0.. 
V3 0 0 


我 们 将 向 量 xe 8” 的 组 成 元 素 记 为 (x%, x%,…, xz) . 行 向 量 的 定义 与 列 向 量 类 
似 ,不 过 它们 由 组 成 元 素 的 横向 排列 构成 . 

一 般 来 说 , 对 于 给 定 的 整数 m 和 nn, 和 矩 阵 4eR” 是 由 实数 按 m 行 n 列 的 矩形 排 
列 方式 组 成 .在 矩阵 i 行列 的 元 素 记 为 4(iyj)， 当 m=n 时 ， 也 称 该 矩阵 为 方 阵 . 

同时 定义 单位 矩阵 TeR” ，7 的 元 素 1(ij)=1{ 二 放 . 也 就 是 说 ， 其 对 角 线 上 元 素 
等 于 1， 非 对 角 线 元 素 等 于 0 (n 的 值 通常 可 以 通过 上 下 文 得 到 ). 

根据 定义 ，ve RW 是 一 个 行 向 量 ， 而 we RW” 是 一 个 列 向 量 . 


B.2 矩阵 运算 
本 节 将 回顾 矩阵 和 向 量 的 一 些 关 键 运算 . 


下 面 介绍 矩阵 的 基本 运算 . 对 于 和 矩阵 4, C, De R” , Be R”™ 以 及 实数 a,peR， 艰 
有 如 下 定义 . (省 
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口 转 置 : 将 矩阵 4 变换 成 4'， 使 得 4 人 六 40 让. 
口 相 乘 : 48 的 定义 为 (4B)Gi, 7) = > 4(PDDB(CE 站. 


例如 ， 


以 及 

人 

3 -1-2| 12 -4 3|1|8 2 -| 

从 上 述 定义 可 以 看 到 ， 和 矩阵 的 运算 继承 了 实数 运算 的 性 质 ， 例如 ， 
(4+B)C=AC+BC 以 及 A(BC)=(4B)C. 


同时 ， 我 们 可 以 验证 
(4B)=B'A" 
如 果 x,yeR”， 则 xy 称 为 x 和 yy 的 标量 积 . 


如 果 4=[w|.|v,] 由 列 向 量 包 组 成 ， 并 且 a 也 是 一 个 列 向 量 ， 则 它们 的 乘积 ; 


Aa= ay,. 
J 


口 线性 组 合 : gC+BD 的 定义 为 (aC +BD)(i, 站 =aCl(i, jj+BD(i,)). 


.|| 
2 1 -l 0 9 

=} | -2 3|= 
3 = 3 4 

0 4| - 


此 外 ， 如 果 和 矩 阵 4 是 由 行 向 量 1,，…, 组 成 的 ， 同 时 ec 是 一 个 行 向 量 ， 则 


cA= Do,. 
j 


B.3 行列 式 
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本 节 定 义 了 方 阵 的 行列 式 . 这 个 概念 对 于 逆 和 矩 阵 的 定义 以 及 矩阵 特征 值 的 计算 十 


分 重要 . 


我 们 可 以 以 递归 的 方式 定义 方 阵 的 行列 式 . 1x1 和 矩阵 的 行列 式 就 等 于 其 元 素 的 
值 . 假设 我 们 已 经 定义 好 了 mxz 和 矩阵 的 行列 式 . 设 4 是 一 个 (n+1)x(n+1) 的 矩阵 . 对 


到 的 矩阵. 然后， 将 4 的 行列 式 det(4) 定 义 为 : 
det(A)= > AGi, 1D)(—1)" det(B,,) =: > AGi,1)C(i,1), 


其 中 CG,D)=(-1)”* det(B,,). 例 如 ， 


于 4 中 第 一 列 的 每 一 个 元 素 4(i, 1)， 定 义 B(i, 1) 是 把 4 的 第 1 列 和 第 i 行 划 掉 以 后 


Z| 
得 
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a b 1+1 区 村 二 三 
det 了 = a(-D d+c(-1) b=ad—brc. 
c 


再 举 一 个 例子 ， 可 以 通过 归纳 法 得 到 


det(7) =1. 
男 一 个 例子 是 ， 
a bre 
detlld e f||=a(ek—hf)-ad(bk—hc)+ge(bf -ec). 
8 hk 


在 最 后 这 个 例子 里 ， 注 意 行列 式 是 一 系列 乘积 的 和 ， 而 每 项 乘积 都 由 矩阵 中 的 3 
个 元 素 相 乘 得 到 ， 如 aek、ahf、dbk 等 ; 在 每 一 项 乘积 中 ， 都 没有 任何 两 个 元 素 在 同 
一 行 或 同一 列 . 也 就 是 说 , 每 一 个 乘积 项 都 具有 4(1, 方 A(2, PP)A(3, 广 ) 的 形式 , 其 中 方 、 
亡 和 方 均 不 相同 . 例如 ，cdp=4(1, 3)4(2, 1)4(3, 2). 在 求 和 的 过 程 中 ,每 一 个 这 样 的 乘 
积 项 都 乘 了 +1 或 -1. 其 中 ， 如 果 将 (有 ,jo,js ) 变换 成 升序 序列 所 需要 的 最 少 相 邻 项 交 
换 次 数 是 偶数 , 则 在 4(1, 有 站)4(2,j)4(3, 有 3) 乘 积 项 前 乘 +1; 否则 乘 以 -1. 例如 , cdh=4(1， 
3)4(2, 1)4(3, 2) 要 乘 以 +1， 因 为 可 以 通过 2 次 相 邻 项 的 交换 将 312 变 成 按 升序 排列 : 
312 一 132 一 123. 

一 般 来 说 ， 对 于 矩阵 4 e R” ， 我 们 有 

det(A)= >.(—D)"®™ 4d, p,)A(2, p,)… Aln, p,), (B.1) 


其 中 要 对 于 所 有 12…n 的 排列 p 求 和 ，n(p) 表 示 为 了 将 p 变 成 升序 所 需要 的 相 邻 项 的 
交换 次 数 的 最 小 值 . 
行列 式 还 有 男 一 种 很 有 用 的 表示 形式 . 对 任意 的 (i, 站 , 设 B ,表示 将 矩阵 4 的 第 i 
行 和 第 j 列 划 掉 得 到 的 矩阵 , 设 C(i,])=(-1) ”det(B, ,) . 这 里 的 C(i,】) 称 为 元 素 4(i, 
的 余子 式 . 则 
det(A) = > AGi,))CGi, )), vi , 同时 det(A) = > AGi, CGi, 7),vi. (B.2 ) 


读者 可 以 直接 通过 前 面 2x2 和 3x3 的 例子 来 验证 这 个 表达 式 . 通过 仔细 思考 ,我们 会 
发 现 这 个 定义 式 是 可 以 由 式 (B.1 ) 推出 来 的 . 由 这 些 表达 式 还 可 以 推出 

det(A) = det(A"). 
如 果 一 个 矩阵 有 两 个 相同 的 行 或 列 ， 那 么 它 的 行列 式 等 于 0. 这 对 于 所 有 的 2x2 矩阵 
都 是 成 立 的 . 假设 这 对 于 所 有 的 nxn 和 矩阵 都 成 立 . 设 4 是 一 个 (n+])x(n+1) 的 矩阵 ， 
并 设 它 的 第 i 行 和 第 k 行 是 相同 的 . 现在 选 一 个 不 是 i 也 不 是 的 数 s(i 关 sk). 由 
式 (B.2 ) 可 得 
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det(A) = > A(s, j)C(s, )). 


注意 到 C(s, )=(-1)” det(B,,) .但 是 B,, 有 两 个 相同 的 行 ( 原 和 矩阵 的 第 i 行 和 第 行 )， 
所 以 det(B,,)=0. 因此 ，det(4)=0. 上 述 结论 对 于 所 有 的 n 宇 2 都 成 立 ， 有 相同 列 
的 情况 同样 适用 . 
现在 我 们 考虑 由 余子 式 CQ, 力 组 成 的 矩阵 C. 我 们 有 
4C' = det(A)L. (B.3 ) 
为 了 证 明 式 (B.3 ) 成 立 ， 首先 考 虑 4C' 的 一 个 对 角 线 元 素 . 我 们 有 
(4C')(i,i) = 24, DC'(j,D) = 24, DC(i, )) = det(A). 


其 中 最 后 一 个 等 式 可 以 由 式 (B.2 ) 得 到 . 下 一 步 ， 我 们 考虑 一 个 非 对 角 线 上 的 元 素 
(i,k)， 这 里 i : 


(AC), = 2 AG DC = 2 AG, NCEk, 7). 


现在 ， 定 义 矩 阵 D 为 将 矩阵 4 的 第 行 蔡 换 成 4 的 第 i 行 所 得 到 的 矩阵 ， 那 么 
det(D)= BD DG, EN) = BAG DEG). 


这 里 的 EC, 旋 表 示 D(i, 站 的 余子 式 . 那么 EGi, 让 =(-1)” det(F )) ， 其 中 石 ,是 划 掉 和 矩 
阵 DD 中 第 i 行 和 第 j 列 得 到 的 矩阵 . 同时 ，C(k, 7)=(-1)”*/ det(B, ,) ,其 中 B ,是 划 掉 
和 矩阵 4 中 第 不 行 和 第 7 列 得 到 的 矩阵 . 由 DD 的 定义 可 以 看 出 已 ,= 到 ，. 所 以 ,对 任意 
的 7 有 Ck, 门 =(-1)**E(i,7) .由 此 我 们 得 到 
(ACNGi,k) = (-1)"** det(D). 
前 面 已 经 说 明 det(D)=0 (因为 D 有 两 个 相同 的 行 )， 这 就 证 明了 式 (B.3). 
用 同样 的 步 又 可 以 得 到 


(C'4) = det( A)L (B.4) 
行列 式 有 一 个 非常 重要 的 性 质 : 如 果 4, BeR” ， 则 
det(4B) = det( A) det(B). ( B.S) 
这 里 我 们 不 再 证 明 这 个 式 子 . 读者 可 以 参考 其 他 的 线性 代数 书籍 . 


B.4 着 纸 阵 


我 们 的 核心 结论 是 : 方 阵 可 逆 当 且 仅 当 它 的 行列 式 非 零 . 此 时 ， 移 阵 的 列 向 量 彼 
此 之 间 是 线性 无 关 的 . 
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设 4eR” 是 一 个 方 阵 . 如 果 存 在 一 个 矩阵 下 使 得 4B=7 且 B4=T“”， 则 称 B 是 4 
的 逆 和 矩阵 . 
注意 到 ， 如 果 4 的 道 和 矩阵 是 B， 则 由 式 ( B.5 ) 可 知 ，det(4)det(B) = det(D=1， 所 
以 det(4)#0. 
反之 ， 如 果 det(4) 冯 0 ， 则 它 的 道 矩阵 可 以 表示 为 
-1 1 /人 
> 
det(A) 


这 里 的 矩阵 C 是 由 余子 式 组 成 的 . 由 式 (B.3 ) 和 式 (B.4 ) 可 知 


4 a cj-ral E ca- 
det(A) det( A) 


4 的 道 矩阵 是 唯一 的 . 事实 上 ， 如 果 B 和 C 均 为 4 的 逆 和 天 阵 ， 则 
C=(B84A) C=B(4C0)=B. 
第 一 个 等 号 成 立 是 因为 B4 =7， 第 三 个 等 号 成 立 是 因为 4C = 工 
我 们 还 可 以 得 到 以 下 的 结论 ， 如 果 和 矩阵 4 和 好 都 有 道 矩 阵 存 在 ， 则 抢 阵 48B 也 存 
在 道 和 矩阵 : 


(4B) "=B'A.. 


可 以 验证 ，4BB-41 = 44 = 了 7. 
不 仅 如 此 ， 还 有 
(4)" =( 4) 


原因 是 440 =(4.07 = 工 . 
下 面 证 明和 矩阵 4 存在 逆 和 矩阵 当 且 仅 当 它 的 列 向 量 vi 是 线性 无 关 的 . 根据 线性 无 关 
的 定义 ， 这 意味 着 不 存在 全 为 非 零 的 系数 能 使 得 线性 组 合 > ,av 等 于 0. 也 就 是 说 ， 
当量 仅 当 a=0 时 4a=0. 这 一 点 不 难看 到 : 假设 4 存在 道 矩 阵 且 4a=0， 那 么 
0= .44a =a. 
所 以 4 的 列 向 量 是 线性 无 关 的 . 为 了 证 明 逆 命题 , 假设 4 的 列 向 量 是 线性 无 关 的 . 我 
们 看 到 ， 对 于 所 有 的 ce RW”， 方 程 


Ax=c 
至 多 有 一 个 解 x. 事实 上 ， 如 果 上 式 有 2 个 不 同 的 解 x 和 y， 则 4(x-y)=0， 因 为 4 的 
列 向 量 线性 无 关 ， 所 以 x-y=0. 


@ 事实 上 ， 可 以 证 明 如 果 48=I， 则 84=I. 
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不 仅 如 此 ， 这 个 方程 一 定 有 一 个 解 ， 我们 稍 后 会 论证 这 一 点 . 因此 ， 如 果 4 的 列 
向 量 线性 无 关 , 则 4x=c 恰好 有 一 个 解 . 设 这 个 解 为 g(c). 方程 g(o 是 e 的 线性 函数 ， 
因为 如 果 4xi=ci 且 4 =c, 则 4GCi+Hxe) = citez. 所 以 ,这 个 表达 式 可 以 写成 g(c) = Be， 
其 中 B 是 一 个 和 矩阵"*， 也 就 是 说 ， 如 果 4x =e, 那么 x= Bc. 即 B4x=x. 同样 ， 如 果 
xX=Bc， 那 么 Ax=c， 所 以 4B=x. 因此 B= 4. 

现在 来 证 明 如 果 4 的 列 向 量 线性 无 关 , 则 4x =c 有 一 个 解 . 证 明 的 方法 是 设计 一 
个 具体 的 流程 . 下 面 通 过 一 个 例子 来 说 明 : 


[0 2 4 [14] 
3 6 9|x=|12|， 
I5 8 7| 8 
第 一 步 推 出 
[3 6 9| 12 
4|x=|14 
|5 8 7 18 
第 二 步 推出 
3 6 9 12 
0 -2 -8 -2 
第 三 步 推出 
3 6 9 12 
了 | 
0 0 -4 12 


这 种 算法 通过 行 交换 以 及 行 的 线性 变换 来 实现 对 方程 组 4x =c 的 变换 . 第 一 步 ， 
我 们 交换 第 1 行 和 第 2 行 ， 使 得 交换 以 后 4(1， 1)z#0. 第 二 步 ， 我 们 从 第 2 行 中 减 去 
第 1 行 的 4(2, D/4(1 D) 倍 ,从 第 3 行 中 减 去 第 1 行 的 4(3, 1)/4(1, D 倍 . 在 这 一 步 变 换 
以 后 , 4(2, 1)=4(3, 1)=0. 第 三 步 , 保证 4(2, 2)#*0， 否 则 需要 交换 第 2 行 与 第 3 行 . 然 
后 从 第 3 行 中 减 去 4(3, 2)4(2, 2) 倍 的 第 2 行 ,使 得 4(3,2)=0. 做 完 这 一 步 以 后 , 我 们 
可 以 自 下 而 上 地 求解 方程 组 . 从 第 三 的 式 子 可 以 解 出 w=12/(-4)=-3. 我 们 把 这 个 值 带 
人 第 二 个 等 式 2z+4x=14， 即 2x2+4(-3)=14， 所 以 =13. 最 后 ， 第 一 个 等 式 给 出 
3x1t+6xz+9x3=12， 即 3x1+6(13)+9(-3)=12， 所 以 x1=-13. 

为 什么 这 种 算法 是 可 行 的 呢 ” 关键 在 于 , 每 一 步 中 都 有 办 法 通过 重新 排列 下 方 的 


Q@ 8 的 第 j 列 定义 为 g(BE,) ， 其 中 向 量 BE, 的 元 素 为 BE;OD=1f= 用 . 


246 EECS 应 用 概率 论 


各 行使 得 4(i, Dz0.， 如 果 在 第 i 步 有 4(i,i)=0 且 40, 站 =0 对 于 所 有 j>i 成 立 ， 则 这 
个 算法 就 无 法 继续 进行 了 . 例如 ， 我们 有 可 能 在 其 中 的 某 一 步 将 4x=c 化 简 成 : 


1 2 3 4 
0 0 2|x= 
0 0 -4 12 


此 时 ， 我 们 会 发 现 -2v1+v, = 0， 所 以 4 的 列 向 量 之 间 不 是 线性 无 关 的 . 但 是 通过 前 面 

的 变换 ， 列 向 量 之 间 能 否 变 为 线性 相关 ? 我 们 知道 采用 行 交换 不 会 导致 这 个 结果 . 下 

面 我 们 说 明 从 一 行 减 去 另 一 行 的 倍数 也 不 会 造成 这 样 的 情况 . 假设 列 向 量 w 都 是 线性 

无 关 的 . 现在 从 第 j 行 减 去 第 行 的 a 倍 ， 这 相当 于 用 w(7-cw(b 替换 y()). 
如 果 有 


Dialyv -av(k)]=0 av,(r)=0,vrz 
则 
Daw,(k) =0. 
那么 用 < 乘 以 上 式 并 与 第 一 个 等 式 相 加 ， 可 以 推出 2.aw = 0 .也 就 是 说 ， 如 果 经 过 


上 述 变 换 得 到 的 矩阵 4 中 行 向 量 线性 相关 , 那么 最 初 矩阵 对 应 的 行 向 量 就 是 彼此 线性 
相关 的 .由 此 ,我 们 证 明了 这 种 算法 是 切实 可 用 的 . 


B.5 特征 值 


特征 值 、 特 征 向 量 的 概念 对 于 和 矩阵 的 表示 具有 十 分 关键 的 作用 ， 也 说 明了 和 矩阵 是 
如 何 对 向 量 实现 变换 的 . 
设 4eR” .如 果 


Av = 1y, 
则 称 一 个 非 零 向 量 weg 史 "为 4 的 相应 于 特征 值 4 的 右 特 征 向 量 . 
这 时 ， 
(4-41v=0， 


这 表明 和 矩阵 4- 47 没有 逆 和 矩阵 .事实 上 ， 如 果 它 有 逆 和 矩阵 ， 可 以 推出 
v=(4-4D (4-4Dv=(4-47)"0=0. 
所 以 ，4-47 的 行列 式 一 定 等 于 0. 
此 , 和 抢 阵 4 的 特征 值 就 是 多 项 式 det(4- .47 零点 的 值 ， 所 以 , 我 们 可 以 通过 这 
些 零 点 来 找 出 特征 值 ， 对 于 每 一 个 特征 值 4 ， 都 可 以 通过 解 线性 方程 组 4v = 4 来 找 
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到 相应 的 特征 向 量 . 注意 ， 任 何 一 个 特征 向 量 的 倍数 同样 是 特征 向 量 : 如 果 "是 相应 
于 特征 值 4 的 特征 向 量 ,那么 wy(wz=0) 也 是 相应 于 特征 值 4 的 特征 向 量 . 


B.6 表示 方式 


矩阵 有 一 些 特殊 的 表示 形式 ， 能 够 便于 求 出 矩阵 的 寡 以 及 和 矩阵 作用 在 向 量 上 的 
效果 . 

设 4e 8” ， 我 们 用 对 角 阵 A = diag(44,…, 轴 ) 解 释 其 2 种 表示 形式 ， 其 对 角 线 上 
元 素 等 于 ， 非 对 角 线 上 元 素 为 0， 即 AGi, 门 = 41{i= 放 . 

我 们 将 阐述 矩阵 的 3 种 表示 形式 . 第 一 种 ,， 若 4 的 特征 值 4 互 不 相同 ， 则 有 
A=VAV"!, 
这 里 矩阵 全 的 列 向 量 是 4 的 特征 向 量 . 这 被 称 为 特征 值 分 解 . 这 种 分 解 方 法 的 好 处 在 
于 它 提供 了 一 个 简便 的 方法 来 计算 矩阵 4 的 震 . 具体 来 说 ,我 们 有 

大 =TFA 和 7 


和 A“ = diag( 入 入) 
第 二 , 若 4 的 特征 值 不 是 互 不 相同 的 ， 则 4 可 以 表示 为 
4 = 有 7 
其 中 J 为 Jordan 答 阵 . 这 里 的 J 同样 是 易于 计算 的 . 
第 三 ， 在 第 二 种 情况 里 ， 我 们 也 可 以 将 4 写成 
A=UAV,, 
其 中 VU = VV= 了， 这 被 称 为 奇异 值 分 解 . 在 本 书 6.4 节 介 绍 联合 高 斯 随机 变量 的 表 
示 以 及 10.3 节 介绍 推荐 机 制 时 ， 我 们 会 解释 这 种 分 解 方式 的 应 用 . 


B.6.1 互 不 相同 的 特征 值 


设 4 有 nn 个 特征 向 量 v, 对 应 的 特征 值 4 互 不 相同 ， 下面 证 明 这 些 向 量 是 线性 无 
关 的 . 
假设 v 并 不 是 线性 无 关 的 . 令 5S 表示 {1,…, nn} 的 子 集中 满足 
Dp», =0, 


且 含 有 向 量 个 数 最 少 的 子 集 . 对 所 有 的 ieS ， 有 bz0. 考虑 5S 中 的 元 素 j， 我们 
得 到 : 
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0 = 4 Zn] = bhy, 
ieS ieS 
= bhy,—h [2 
ieS ieS 


> > 已 (4 一 4 ) 
ieS 


a 
ieS\{)} 


其 中 c=4b(4; 一). 这 与 子 集 8 中 使 得 v 的 线性 组 合 为 0 的 元 素 个 数 最 少 相 矛 盾 . 


此 ， 这 些 向 量 是 线性 无 关 的 . 
我 们 接 下 来 定义 矩阵 入 = [由 |， 它 的 列 向 量 是 w， 则 
AV =[Avi| hv,]=VA, 


其 中 A= diag (4,…,44). 
对 于 和 矩阵 了 ， 只 有 当 &= 0 时 才 有 =0， 所 以 下 存在 道 和 矩阵 大 : .因此 
A=VAV. 


那么 , 一 个 矩阵 4 什么 时 候 才 有 互 不 相同 的 特征 值 呢 ?我 们 已 经 说 过 特征 值 就 是 


下 式 的 根 : 
det(4-47)=0. 
等 式 左 侧 是 n 阶 的 多 项 式 . 根据 代数 基本 定理 ， 这 个 多 项 式 可 以 分 解 为 
a(4 一 4)x…x(4 一 4 ). 


所 以 ,如果 某 个 4 是 重 根 ,就 意味 着 在 多 项 式 det(4 一 47) 中 4 不 同 寡 次 的 系数 满足 一 
定 的 代数 关系 . 举例 来 说 ,如果 访 =4ac , 则 a4*+b4+c=0 有 重 根 . 如 果 和 矩 阵 4 eR 


是 通过 “随机 ”选取 矩阵 元 素 而 得 到 的 ， 例 如 从 [-10, 10] 中 选取 ， 则 矩阵 4 的 特 和 外 
不 相同 的 概率 是 1. 
虽然 如 此 ， 我 们 依然 需要 研究 特征 值 相同 时 该 如 何 处 理 . 


B.6.2 Jordan 标准 型 


考虑 以 下 Jordan 标准 型 的 例子 : 


ON 一 
> 一 © 


1 
.J(4 和 =|0 
0 


PS 
[一 二 = 


通过 归纳 ， 我 们 可 以 得 到 


F 值 互 
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0 0 A (1) 2 


类 似 地 ， 对 于 m 三 1 我 们 可 以 定义 J(m,4) ,读者 可 以 猜 出 0m,4)* 的 形式 . 下 一 
步 ， 考 虑 块 对 角 阵 


eS 0 上 - 
0 J(3,2b) 


OO CO ON 
5 
ba ee ~ 
A 
WY 
Lm Ne Me 


re 0 ee A 


我 们 可 以 验证 


ee 洲 二 0 | 
0 J (3,b) 

因此 ， 类 似 形式 矩阵 的 震 次 很 容易 计算 . 我 们 把 这 样 的 结构 叫 作 Jordan 型 . 

设 和 矩阵 4 可 以 写作 

A=VIV,, (B.6) 

则 入 = 用 六: 也 是 容易 计算 得 到 的 . 

事实 上 ,任意 的 方 阵 4 都 可 以 写成 上 述 形式 ,其 中 /具有 块 Jordan 型 的 形式 . 它 
的 Jordan 块 为 J(n,,4)， 其 中 每 一 个 和 都 是 4 的 特征 值 ，n, 是 相应 特征 值 的 重 数 ， 
即 


det (4-A7)=a(4-4) (4-% 

其 中 a 为 常数 .分 解 方法 (B.6 ) 称 为 4 的 Jordan 标准 型 . 
B.6.3 奇异 值 分 解 

现在 讨论 方 阵 4eR”™ 的 奇异 值 分 解 . 设 m 三 n 为 4 中 线性 无 关 列 数 的 最 大 值 ( 除 
非 4 是 满 秩 的 ， 否则 m <n )， 那 么 

A=UAV'. 

其 中 UU=VV=IT，A=diag(o,,…,0,,0,…,0) .这 里 的 ce 表示 44 的 正 特征 值 的 平 
方 根 . 严 的 列 向 量 是 444 的 特征 向 量 . U 的 列 向 量 是 44' 的 特征 向 量 . 
举例 来 说 ， 设 
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则 


44 的 特征 值 为 咏 =6 和 cz =2 . 根据 定义 ,我 们 可 以 得 到 UU 和 V: 
0- |- 人 pl | 
V2L-1l 1 2| -1 -V3 


这 里 对 特征 向 量 进行 了 归 一 化 ， 使 得 VU= VV=T.， 于 是 ，4 的 奇异 值 分 解 为 
4-UAr- 二 1 0 1 
V21-l 10o V2-1 -V3 
设 UU= [四 四] 以 及 和 = [wm 四] 注意 到 4 六 =VA ， 因 此 4v, = ou,. 这 样 ， 互相 正 
交 的 向 量 v 和 儿 就 与 正 交 的 向 量 ojw 和 oz 对 应 起 来 了 . 
考虑 如 下 定义 的 单位 圆 : 
Cn)soge Rte = 了 
注意 到 一 个 等 效 的 表达 方式 是 
C=fwn+owm|o +oy =1}. 
原因 是 ， 由 于 VV=I， 我 们 有 
(om + 0b,) (om + 0,) = or 十 0 


通过 和 矩阵 4， 圆 C 可 以 与 新 的 集合 4C 对 应 起 来 ， 其 中 4C 定 义 为 
4C={dxzlxesC 


因此 ， 
4C={4(am+oaDp)|o +oas =1} 


2 过 
={Q0u +0u,)|ar +a =1}. 


这 个 集合 是 一 个 椭 贺 ， 它 的 轴 是 wi 和 w,， 如 图 B-1 所 示 . 
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B-1 A 的 作用 是 旋转 和 拉 伸 
再 举 一 例 . 考虑 4 作用 在 方 阵 Q 上 的 情况 ， 
QO= {ov + mw; as e[0,1]}. 
如 图 B-1 所 示 ，4 将 这 个 集合 变 为 4@， 
AQ= {ou +Q,0u, ac <[0,1]} 


49@9 的 面积 为 wa, =|det(4)|， 也 就 是 Q 的 面积 乘 以 | det(4)|. 


B.7 参考 资料 


线性 代数 有 很 多 优秀 的 参考 书籍 , 同时 在 网 络 上 找到 也 可 以 找到 大 量 资料 . Strang 
的 Introduction to Linear Algebra 一 书 很 好 地 描述 了 线性 代数 的 有 关 性 质 ， 内 容 深 度 适 
合 本 书 的 读者 . 


B.8 练习 
1. 证 明 蔡 aq bc ， 则 
aol 1 [a -= 
cd ad -pc =&” wl 
2. 使 用 Matlab 计算 下 面 矩 阵 4 的 奇异 值 分 解 ， 画 出 4 作用 在 单位 圆 上 时 4C 表 艰 
示 的 图 形 . 


处 


3. 使 用 Matlab 找到 下 面 矩 阵 8 的 特征 值 分 解 ， 写 出 有 ， 
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有 | 005 -035 
| -035 0.05 | 


4. 对 上 一 题 的 8, 设 a 和 4b 是 已 知 向 量 , 用 特征 值 分 解 的 性 质 给 出 当 足 够 大 时 


a'B“b 的 近似 值 . 兴 
5. 考虑 下 面 的 矩阵 C: C1 


使 用 Matlab 找到 C 的 Jordan 标准 型 . 
提示 : 查看 Matlab 的 文件 . 
6. 利用 C 的 Jordan 标准 型 ， 直 接 写 出 C*. 


附录 
~ 


Matlab 


我 们 使 用 Matlab 软件 作为 仿真 和 计算 的 工具 .这 篇 附录 整理 了 一 些 标准 的 代码 . 

作者 自 认为 不 是 书写 编程 知识 的 最 佳人 选 , 所 以 请 读者 不 要 把 这 里 给 出 的 例子 作 
为 编程 的 模板 .给 出 这 些 例子 是 为 了 让 读者 节省 一 些 时 间 . 为 了 增强 代码 的 可 读 性 ， 
书 中 的 很 多 代码 可 能 不 是 最 简化 的 ， 希望 读者 理解 . 


C.1 纸 阵 
Matlab 针对 和 矩阵 进行 运算 . B2 


= 二 .27561 
会 产生 这 样 的 矩阵 : 
ly .2.3 
A= 
4 3 0 
同时 ， 代 码 
A*B,A',A^(-1),det (A),eig(A), [V,D]=eig (A) 


可 以 依次 产生 和 矩阵 4 和 8B 的 乘积 矩阵 ，4 的 转 置 ，4 的 道 和 矩阵 ，4 的 行列 式 ， 由 4 的 
特征 值 组 成 的 列 向 量 , 以 4 的 特征 向 量 为 列 向 量 的 矩阵 ,以 及 以 4 的 特征 值 为 对 角 
线 上 元 素 的 对 角 阵 D， 也 就 是 说 ，4 大 VD 上 且 4=VDV7". 例如 ， 


A=[1,2;3,4]; 

[V,D]=eig (A) 
会 产生 

学 二 


-0.8246 -0.4160 
0.5658 -0.9094 


254 EECS 应 用 概率 论 


立 休 六 卫生 入 0 
0 5 09723 
再 举 一 例 ， 对 于 随机 和 矩阵 HH 
B.5 和 B.6 
pal mA 
我 们 有 
>> elig(P) 
总 过 各 过 
-0.7359 
1.0000 
上 二 5 


这 验证 了 一 个 不 可 约 、 非 周期 的 马尔 可 夫 链 对 应 的 随机 和 矩阵 有 且 只 有 一 个 等 于 1 的 特 
征 值 ， 且 其 他 特征 值 的 绝对 值 严 格 小 于 1 ( Perron-Frobenius 定理 ). 
同时 ， 我 们 有 


>> [V,D]=eig(P) 


a 
-0.5454 Oe! 0.0547 
-0.3915 Quo -0.9139 
0.7411 Qa 0.4023 

D = 
-0.7359 0 0 
0 1.0000 0 
0 0 QaLla359 

可 以 验证 
P=VDV. 
事实 上 ， 


>> V*D*V^(-1) 
ans = 


0.0000 0.3000 0.7000 
0.0000 0.4000 0.6000 
1.0000 0.0000 0.0000 


因此 ,VP= DV. 这 意味 着 如 果 w 是 VV 的 第 k 行 , 则 w =Uw， 其 中 丸 是 
第 个 特征 值 ， 所 以 ， 


NE 
wiP” = Nw,. 


如 果 我 们 把 一 个 向 量 x 写成 
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X=aw +aw,+aw,, 
则 


3 
渤 E 二 n 
大 已 三 > a Ni Wi > ayw,. 
大 =1 


因为 =1 且 |<1， 人 |<1. 注意 ， 这 里 可 以 采用 这 种 表达 形式 是 因为 特征 值 互 不 


相同 ， 和 否则 和 矩阵 需要 用 块 Jordan 矩阵 来 代替 (参阅 B.6 节 ). 
如 果 随 机 和 矩阵 不 可 约 ， 且 不 是 非 周 期 的 ， 情 况 会 有 所 不 同 . 例如 ， 


>> P= Olly 
>> [V,D]=eig(P) 


Wr 


=0F071 Qs tO 
0.7071 O07 ONL 


还 有 ， 
A ) yr A a LE) 

分 别 表 示 4 的 第 m 行 和 第 n 列 . 例如 ， 
A(1;:) =[1,2,3] 和 4:,2) = [2;5]. 


C.2 随机 变量 


Matlab 有 一 个 函数 rand (1) ， 可 以 返回 一 个 均匀 分 布 在 [0，1] 上 的 随机 变量 . 


续 调 用 这 个 函数 ， 可 以 产生 满足 均匀 分 布 的 独立 同 分 布 随机 变量 . 


此 , 如 果 我 们 希望 得 到 一 个 服从 两 点 分 布 Bp) 的 随机 变量 X, 可 以 用 以 下 代码 : 


if rand(1)<p 
bp 
else 
六 二 由; 
end 


采用 Matlab 可 以 很 容易 地 产生 更 复杂 的 分 布 : 
random('bino',n,p) 
返回 的 是 服从 B(n,p) 分 布 的 随机 变量 . 如果 n= 二 1， 则 


random('bino',1,p) 
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返回 的 是 服从 B(p) 的 随机 变量 .同时 ， 


random('exp', 入 ),random('geo',p), 
random('Poisson', A),random('Normal',H,o) 


各 自 返 回 我 们 希望 得 到 的 随机 变量 . 我 们 也 可 以 通过 加 上 参数 m 和 nn 来 产生 由 记 
量 组 成 的 mxn 阵列 .如 
random('Normal',0,1,3,4) 


返回 了 3 x4 的 阵列 ， 其 中 的 每 个 元 素 都 是 相互 独立 的 服从 .M0, 1) 分 布 的 随机 变量 . 
要 产生 一 个 取 值 为 Kf 三 1, …, K) 的 概率 是 P( 朋 的 随机 变量 ， 可 以 用 下 述 方法 : 


function T=discrete(P) 

g 该 函数 产生 一 个 概率 服从 Pr (x=k)=P(k) /sum(P) 分 布 的 随机 变量 
% P=[P(1),P(2),..,P(k)], 其 中 P(k) 均 为 非 负 

Pnorm=[ 0 P]/sum(P); % 见 下 方 说明 (1) 

Pcum=cumsum (Pnorm); %$(2) 

ResEand( Ey) 

[~,T] = histc(R,Pcum); $(3) 


现在 对 上 述 代 码 进行 说 明 . (1) 为 向 量 P 加 一 个 0， 并且 使 其 归 一 化 . (2) 建 立 P 
的 累积 分 布 函数 使 得 第 一 个 元 素 依然 是 0， 而 最 后 一 个 元 素 是 1. 也 就 是 说 ， 
Peum(h) = > ,Pnorm(i) ，(3)R 均匀 分 布 在 0 到 1 之 间 ， 可 以 认为 直方 图 函数 的 功能 
是 求 在 R 处 测量 的 累积 分 布 孔 数 的 拟 道 . 事实 上 ,7 =sup, Pecum(i) 三 R. 这 解释 了 为 
什么 要 让 P 的 开头 为 0. 

例如 ， 


P=[1,2,3,4]; 
discrete(P) 


产生 了 一 个 值 ， 取 值 为 1 的 概率 是 0.1， 取 值 为 2 的 概率 是 0.2， 以 此 类 推 . 


C.3 马尔 可 夫 链 


R 
六 


设 P 是 一 个 NxNW 的 随机 矩阵 . 
C.3.1 仿真 


我 们 希望 得 到 一 个 转移 概率 矩阵 为 已 的 马尔 可 夫 链 X ={X(m,m =1… MX} .已 
知 Xn) 时 ,可 以 通过 discrete(P(X(n), :)) 来 产生 X(n+1). 那么 , X(1)=4, 通过 M 步 来 仿 
真 环 的 代码 : 

function SimMC(M,A,P) 


g 对 一 个 初始 状态 为 R、 转 移 矩 阵 为 P 的 马尔 可 夫 链 进行 M 步 模拟 
X = zeros (1,M) ; 
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Xt ss 
fo SM 
X(m+1) = discrete(P(X(m)),:)); 
end 
Blot (XxX oDB') 


图 C-1 给 出 了 用 如 下 代码 得 到 的 仿真 结 


M=100> A=17 P= Ll-araral-als 
SimMC (M,A,P) 


其 中 为 a = 0.1、0.2 和 0.4. 图 中 的 了 轴 都 被 重新 标注 了 ， 因 为 Matlab 代码 产生 了 一 
个 在 {1,2,…, NN} 上 的 马尔 可 夫 链 ， 而 不 是 在 {0,1} 上 的 . 


0 10 20 30 40 50 60 nn B80 90 100 
1 

二 
oo 10 20 30 40 50 60 70 80 90 100 
1 PY re 

a=0.4 
0 10 20 30 40 50 60 70 80 90 100 
图 C-1 对 于 一 个 2 态 马尔 可 夫 链 的 仿真 


再 举 一 例 ,图 C-2 给 出 了 对 于 5 态 马尔 可 夫 链 的 仿真 ( 这 对 应 于 前 面 网 页 搜索 的 
例子 ) 用 到 的 代码 如 下 : 


M=100; A=1; 
Bal00.D7 O00,0r0 0 L100 rT 0%0r 0 0 LL3 LL3 0 07EL32070.970.9700]3 
SimMC (M,A,P) 


同样 地 ， 我 们 重新 标注 了 轴 ， 把 {1 2, 3, 4, 5} 改 成 {4, B, C, D, E}. 
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和 


ss 
LE 


图 C-2 对 于 一 个 5 态 马 尔 可 夫 链 的 仿真 


C.3.2 稳 态 分 布 
设 P 是 不 可 约 的 . 那 马 尔 可 夫 链 的 平衡 方程 为 
序 二 ww: 
由 定理 1.2, 我 们 知道 对 于 这 些 方程 有 唯一 的 解 z ,满足 所 有 元 素 之 和 为 1. 可 以 将 方 
程 组 重 写 为 


x(P-7)=0, 
其 中 了 为 单位 阵 . 设 c,…,cx 是 矩阵 P-7 的 列 . 那么 方程 组 就 是 
FFcl =0, k=1,.…,N. 
这 些 方程 不 是 相互 独立 的 . 事实 上 ，P-7 的 各 行 之 和 为 0 向 量 ， 因 为 
(P-7D1= Pl-1=0, 
其 中 1 为 每 个 元 素 均 为 1 的 Y 维 列 向 量 . 因此 ， 如 果 对 于 k=1…,N -1 都 有 zc, =0， 
则 


New R00 ==) = 0 
所 以 ， 最 后 一 个 等 式 是 多 余 的 . 我 们 把 它 替 换 为 
Axl1=1. 


也 就 是 考虑 以 下 方程 组 : 


A[cic, :cw 11]=[0,0,.…,0,1]. 
因为 有 唯一 解 x ， 所 以 这 些 方程 一 定 是 线性 无 关 的 . 那么 ， 我们 有 
元 =[0,0,…,0,1][cce :ev IT . 
举 一 个 简单 的 例子 ， 设 
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则 
-a a 
P-1= 
Pe 
前 面 讲 过 


所 以 ， 关 于 zz 的 方程 就 是 


本 
-1 1 
x =[0,1] ne 3s | 
[Ib 1 atb|lb al La+p a+b 
下 列 函 数 计算 了 P 的 稳 态 分 布 : 
function [INVD]=invdist (P) 


g 该 函数 计算 给 定 随机 转移 矩阵 P 下 的 马尔 可 夫 链 的 稳 态 分 布 
N= sizel(P,2); 


B= (P - eye(N)); 
B(1:N,N) = ones (N,1) 
oO = Zeros(1,N) 
二 

INVD = o*inyv (B) 

举 个 例子 


P= [T0370.37037707 0 .4,0 631; 0 0] 
invdist (P) 


会 产生 一 个 不 变 分 布 : 


ans = 


0.4000 0.2000 0.4000 


C.4 置信 区 间 


现在 讨论 置信 区 间 ， 设 {XX,,n 宇 让 是 均值 为 1 ,方差 为 o? 的 独立 同 分 布 随机 变 
量 . 在 3.4 节 中 我 们 解释 过 ， 当 足够 大 时 ， 有 95% 置 信 区 间 的 均值 w 为 


4 20 + 芭 | 
n /a n Vn 


于 
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A 


n 
为 样本 的 均值 . 我 们 通过 抛掷 硬币 来 检验 这 一 置信 区 间 . 
对 于 抛掷 硬币 ， 也 就 是 服从 两 点 分 布 B(p) 的 随机 变量 ,我 们 有 
var(X,)= p(l—p)1/4. 


然后 ， 将 1/2 作为 标准 偏差 o 的 上 界 . o 是 针对 如 下 给 定 的 置信 区 间 而 言 的 : 
1 1 
区 a A :二 
下 面 的 代码 展示 了 独立 同 分 布 的 Bp) 随机 变量 XA1), …, X(N) 并 计算 了 样本 均 
值 . 代码 还 计算 了 置信 区 间 的 界限 . 图 C-3 展示 了 计算 结 


1 
Cs 几 个 样本 下 的 
on n 95% 置 信 区 间 


1 1 1 1 1 
0 50 100 150 200 250 300 


图 C-3 通过 方差 上 界 得 到 关于 硬币 偏 移 值 的 置信 区 间 ( 另 见 彩 捕 ) 


% 抛 挪 硬 币 N 次 ， 得 到 N 个 概率 为 P 的 伯 努 利 随 机 变量 

g 根 据 采样 平均 以 及 方差 不 大 于 1714 的 条 件 构 建 置信 区 间 

300 

Qn 

zeros (1,N); 

ones (1,N); 

px*U; 

zeros (1,N); 

Y(1) = (rand(1)<p); 

fOr S28N 

YY AIT) Y(trand(l)<p)) yy 

类 二 本 /SEE 了 
十 


另 


可 合生 兰芝 全 9 
L(j) 
end 
plot ([Y;L;U;M]') 


b; 
ep; 


Yj) 
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余 了 采用 置信 区 间 的 上 界 来 得 到 置信 区 间 的 范围 ， 也 可 以 采用 样本 的 标准 偏差 . 
这 时 ， 置 信 区 间 为 
| 20, ,20, | 
Mn J Vn 
其 中 
ay = pe -| 


是 无 偏 的 样本 方差 ( 参阅 3.4 季 ). 


下 面 是 修改 后 的 代码 .图 C-4 展示 了 结 


:= 


i 


1 1 
0 50 100 


1 1 
200 250 


图 C-4 通过 采 
起 初 , 采用 样 


本 标准 偏差 c, 的 效果 


六 
五 


产生 N 个 概率 为 P 的 伯 努 利 随 机 变量 
根据 采样 平均 与 采样 方差 构建 置信 区 间 


名 
五 


] 样 本 方差 得 到 


硬币 偏 移 的 置信 区 间 ( 男 见 彩 插 


i 


并 不 是 很 好 . 不 过 ,， 随 着 n 的 增 大 , 采用 这 个 
估计 值得 到 的 结果 比 采 用 上 界 的 值 更 准确 ， 


能 产生 更 小 的 置信 区 间 . 


= O00 
Y = zeros(1,N); $ 样 本 平均 
U = ones(1,N); $$ 置 信 区 间 上 界 
三 ”了 KU g% 真 实 期 望 
[LL = Zeros (1,N); % 置 信 区 间 下 界 
S = U; % 样 本 二 阶 矩 
Y(1) = (rand(1)<p); %B(p) 
S(1) = Y(1)^2; 
fo "S22N 
R = (rand(1)<p); %B(p) 
Y(j) = ((j-1)*Y(j-1)+R)/j; es pt 
S(j) = ((j-1)*S(j-1)+R*2)/j; %S8 = 样本 二 阶 矩 
b = 2/sqrt (j); % 调 整 A | 
sigma = sqrt ((j/(j- 1 (3 “ (加 2) ) ; g 样 本 标准 方差 
g% 这 里 采用 sqrt (j/(j-1)) 保证 无 偏 估计 
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U(j) = Y(j) + bxsigma; 
L(j) = Y(j) - bxsigma; 
end 
plot ([Y;L;U;M]’) 


上 面 的 代码 也 可 以 用 于 其 他 的 分 布 . 这 里 给 出 一 个 指数 分 布 的 例子 . 图 C-5 给 出 
了 运行 结果 . 
% 产生 N 个 期 望 值 为 7 的 随机 变量 

根据 样本 平均 与 样本 方差 构建 置信 区 间 


N 300; 
Y = zeros (1,N); $ 样 本 平均 
U = ones (1,N); g 置 信 区 间 上 界 
M = 7x*U; g% 真 实 期 望 
L = Zeros(1,N); 8g% 置 信 区 间 下 界 
S = U; g 样 本 二 阶 矩 
Y(1) = random('exp',7); % 期 望 为 7 的 指数 分 布 
人 站 全 人 
FO J 2N 
R = random('exp',7); $ 期 望 为 7 的 指数 分 布 
Y(j) = ((j-1)x*xY(j-1)+R)/j; % 前 j 个 随机 变量 的 样本 随机 
S(j) = ((j-1)*xS(j-1)+R^2)/j; $ 样 本 二 阶 矩 
B = 2/sqrt(j); 8 调整 sigma 以 获得 95% 的 置信 区 间 
sigma = Sast tt (1) (S(T 全 g 样 本 标准 方差 
% 这 里 采用 sqrt (j/(j-1)) 保证 无 偏 估计 
U(j) = Y(j) + bxsigma; 
L(j) = Y(j) - bxsigma; 
end 
plot ([Y;L;U;M]') 
10 i 。 
二 
> n 
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图 C-5 采用 样本 方差 得 到 指数 分 布 均值 的 置信 区 间 ( 男 见 彩 插 ) 


C.5 数字 链 路 


在 5.3 节 中 ,我 们 研究 了 信道 中 含有 加 性 高 斯 噪声 时 对 比特 信息 接收 的 影响 .这 


一 节 中 > 我 们 用 Simulink 来 探 3 这 些 些 统 L. 
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要 用 Simulink 工具 ， 只 需 在 Matlab 的 命令 窗口 里 输入 simulink， 然 后 选择 “file 


一 new model”， 就 可 以 使 用 模块 库 来 组 成 通信 系统 . 


Simulink 有 点 像 电子 游戏 ， 可 以 


用 来 尝试 不 同 的 系统 模型 和 仿真 实验 . 

图 C-6 给 出 了 一 个 服从 独立 同 分 布 B(0.2) 的 二 进 制 信 源 .信号 经 过 一 个 满足 N(0, 0.1) 
的 独立 同 分 布 高 斯 噪声 信道 , 然后 通过 M4P[XIH =1{7 二 0.37} 解 码 . 图 中 给 出 了 信 源 
波形 、 接 收 到 的 信号 、 最 大 后 验 概率 以 及 误差 . 

随机 数 
| | | 外 最 大 后 验 概率 
Ts | 
| < 
| | 
图 C-6 用 Simulink 探索 加 性 高 斯 白 噪声 信道 

C.6 LDPC 码 

在 6.2 节 中 , 我 们 介绍 了 LDPC 码 . 下 面 为 其 中 置信 传播 解码 的 例子 给 出 一 个 比 


较 简 略 的 Matlab 实现 方法 . 
%LDPC 解码 算法 


H=sll0 iy;)1, 0 0 0s 

人 

下 

0,0,1,0,1,1,1,1]; % y=Hx 中 的 算 阵 
xtrue=[0,1,0,0,1,0,1,0]'; % X 的 真实 值 
y=mod (H*true,2); % y 的 真实 值 
x=mod (xtrue+[0,0,0,0,1,0,0,0]',2); sx+ 误 差 
epsilon=0.05; g 二 元 对 称 信 道 误 差 概率 
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Steps=10; % 算 法 的 执行 步 数 


[N,M]=size(H); 

Num=H; 名 式 (6.8) 的 分 子 

Den=H; 当 式 (6.8) 的 分 母 
epsilonbar=1-epsilon; 
xh=zeros (M,N, Steps); 

% 对 于 y (j) ,估计 x(xh (i,j)= 猜 测 P(x(i)=1) 
yh=zeros (N,M, Steps); % 用 y 伟 计 X 

S$ 由 y (j)，, (yh (j,i)= 猜 测 P(x(i)=1) 


A=zeros (1,M); 
二 为 地 


Xh=zeros (M, Steps); g% 在 第 S 步 时 对 X 的 估计 
Xd=Xh; gs 用 以 绘制 Xh 
Xf=Xh; % 最 终 预 测 


王公 TLTeM 
for J=1:N 
xh(i,j,1)=epsilon+(1-2xepsilon)*x(i); 
end 
end 
for s=1:Steps-1 
for j=1:N % 对 每 次 y(j) 更 新 
for i=1:M % 对 每 次 由 式 (6.7) 得 到 的 yh (j,i) 
yh(j,i,s)=(1-2*epsilon)*(1-2xy (j)); 


fo Rs1:M 
if (H(j,k)==1)&é&ne(k,i) 
yh(j,i,s)=yh(j,i,s)*(1-2*xh(k,j,s)); 


end 
end 
VI ) e000Yh (Le)3 
end 
end 
for i=1:M g% 对 每 次 x(i) 更 新 
for j=1:N 多 对 每 次 由 式 (6.8) 得 到 的 xh (j,i) 
TE 
Num(i,j)=epsilon+(1-2xepsilon)*x(i); 
Den(i,j)=1-Num(i,j); 
王石 kK=13N 
if(H(k,i)==1)&&ne(k,j) 
Num(i,j)=Num(i,j)x*xyh(k,i,s); 
Den(i,j)=Den(i,j)*(1-yh(k,i,s)); 
end 
xh(i,j,s+1)=Num(i,j)/ (Num(i,j)+Den(i,j)); 
end 
end 
end 
for i=1:M % 通 过 对 式 (6.9) 取 整合 计 X(i) 


A(i)=epsilon+(1-2xepsilon)*xx(i); 
D(i)=1-A(i); 
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for j=1:N 
(二 
A(i)=A(i)*yh(j,i,s); 
D(a)ED (L(Y 
end 
end 


Xxh(i,s+1)=round (A(i)/ (A(i)+D(i))); 
Xd(i,s+1)=Xh(i,s+1)+0.01*i; 
end 
end 
PloOt:(Xe yy 
Xf=round (Xh(:,Steps))-xtrue 


C.7 卡尔 曼 滤 波 回 国 


卡尔 曼 滤波 器 的 公式 尽管 看 起 来 很 可 怕 , 但 却 可 以 很 容易 地 用 Matlab 来 实现 . 下 
面 是 一 个 计算 卡尔 曼 滤波 器 的 例子 ， 结 果 如 图 C-7 所 示 . 


% 卡尔 曼 滤 波 器 : 系统 X+ = AX + V， Y=CX+W( Xt+ 代表 和 (n+l)) 


多 \Sigma_ V = Q^2, \Sigma W = R^ 人 2 

多 构造 高 斯 又 声 V = normrnd(0，Q)，W = normrnd(0,，R) 
多 其 中 Z 为 独立 同 分 布 正 态 分 布 变量 N(0，1) 

名 该 滤波 器 为 is Xh+ = (A - KCA)Xh + KY (Xh 为 估计 值 ) 
% KF = SC’ [CSC’ 4 R^2) 

% S = AHA’ + Q^2 (H = \Sigma 为 估计 误差 的 协 方差 ) 
多 H+ = (1 - KC)S 

$ 常数 

1 

CR 

Q= [1; 0]; 

Re 0B 

SV = Q*Q’; 

SW = R*R’ 


马 
ll 

DD 
be 
GO 
By 
内 


M = length(A); 


名 系统 

xX = zeros(M, N); 

Xh SS 其 ， 

H = Zeros(M, M); 

KR- 7 

X(:,1) = [0; 3]; $ 初 始 状态 


名 系统 方程 
Vv ="norinenad (OF 
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W = normrnd(0,R); 
X(:,n+1) = AxX(:,n) + V; 
¥ 


% 滤 波 器 
S = ArHxA' + SV; % 得 到 计算 
K = S*C’'*(C*xS*C’+SW)^ (-1); 
H= (1 - KxC)*S; 
名 估计 更 新 
Xh(:,n+1) = (A - K*C*A)*Xh(:,n) + Kx*Y; 
end 
g 绘 图 
P= [X(2,:); Xh(2,:)]'; 
plot (P) 


图 C-7 卡尔 曼 滤波 器 的 仿真 


Simulink 提供 了 一 个 卡尔 曼 滤 波 融 的 模块 . 图 C-8 展示 了 将 卡尔 曼 滤 波 咒 应 用 到 
下 述 系统 时 的 结 
Xx(n+1)= 0.9x(n)+v(n) 
p(n) = Xx(n) + wn), 
其 中 vn) 和 wln) 相互 独立 ,并且 v(m) = -0 0.2) ，w(n)=.NM(0, 0.1) .注意 , 为 方便 
对 比 状态 和 滤波 器 的 输出 ， 我 们 同时 定义 了 另 一 个 等 于 x(n) 的 标 度 . 
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Im=Cxfm+Dulnm = 
xInt 1)=Ax(n)+ Butrl 示 波 屁 


随机 源 离散 状态 空间 


图 C-8 用 Simulink 模拟 卡尔 曼 滤波 器 〈 另 见 彩 搬 ) 


Simulink 模块 的 配置 如 下 . 

口 来 源 Type=Gaussian; Mean=[0, 0]; Variance=[0.2, 0.1] 

口 离散 状态 室 间 4=0.9; B=[1,0]; C=[1:1]; D=[0,0:0,1] 

口 卡尔 曼 滤 波 器 ”滤波 各 数量 : 1; 初 态 : 0; 初始 错误 协 方差 : 1 
状态 转移 矩阵 : 0.9; 过 程 噪声 协 方差 : 0.1 
测量 矩阵 : 1; 测量 噪声 协 方差 : 0.2 


C.8 聚 类 we 


9.3 


下 面 的 程序 优化 了 9.3 节 中 具有 2 个 高 斯 分 布 源 的 一 维 聚 类 算法 . 
C.8.1 硬 期 望 最 大 化 


这 个 程序 会 产生 100 个 分 数 和 (1),…, X100), 它们 独立 同 分 布 ， 并 且 以 等 概率 服 
从 Ma, 532) 或 XB, s2) 分 布 . 然后 程序 执行 HEM 算法 . 这 个 算法 在 第 大 步 时 已 有 4(D 
和 BR 作为 wa 和 刀 的 估 值 . 然后 算法 假设 大 于 (C4(D+B(D)/2 的 X(n) 的 值 属于 A 等 生 ， 
其 余 是 B 等 生 的 分 数 . A4(k+1) 是 A 等 生 的 平均 分 ，B(k+1) 是 B 等 生 的 平均 分 . 图 C-9 
给 出 了 结果 . 
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0.9 

1 08 ] 

4 
08 07 区 ] 
06 06 2 
04 05 
| 过 

02 04 

ns 人 BC | 

0.2 ， 


C-9 100 个 数值 ( 左 图 ) 以 及 均值 的 估计 值 的 演变 ( 右 图 ) 
g 采用 硬 期 望 最 大 化 进行 分 类 


Do 
[| 
Ey Co 
ND 


Steps = 5 ; 当 步 数 


A; 


for n= 1:N g 生成 100 个 分 数值 
(b - a)xrandom(' bino' ,1，0.5) + zandom(“Normal' ,0，S2) 


AN = 0; 
M= (A(k) + B(k))/2; 名 中 值 
FoR ee GN 
if X(n) > M gs 在 这 种 情况 下 ,判定 D 为 AR 等 生 
AN = AN + 1 % 计算 A 等 生 数 量 
A(k+1) = A(k+1) + X(n); gs A 等 生 分 数值 总 和 
else 
B(k+1) = B(k+1) + X(n); % BB 等 生 分 数值 总 和 
end 
end 
if AN > 0 
A(k+1) = A(k+1) /AN; % A 等 生 样 本 平均 
end 
if AN<N 
B(k+1) = B(k+1)/(N - AN); % B 等 生 样 本 平均 
end 


plot (G’) g 绘制 A 和 B 


C.8.2 软 期 望 最 大 化 
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软 期 望 值 最 大 化 算法 也 是 从 猜测 值 (a1, 52) 开始 的 . 然后 ， 算 法 会 计算 一 个 学 生 的 
成 绩 为 Xn) 时 ， 该 学生 是 A 等 生 的 概率 p(n). 下 一 个 猜测 值 a, 是 用 p(n) 对 分 数 Xn) 
进行 加 权 平 均 得 到 的 ，b, 的 求解 方法 类 似 ， 即 ， 


C-10 展示 了 仿真 结果 . 


,EXP ,DX ) 
站 
本 4 
BO | 
| 


图 C-10 


名 采用 软 期 望 最 大 化 进行 分 类 


应 


] SEM 均值 的 估计 值 的 演变 


a 0s 
b = 0.2; % 真实 均值 
s2 = 0.04; % 方差 
N = 100; % 变量 个 数 
X = Zeros(1,N); % 变量 
Steps = 6 当 步 数 
A = ones(1, Steps); 
B = zeros(1, Steps); 
A(1) = 1; % 初始 估计 
BL) 三 % 对 应 均值 为 a 和 bb 的 变量 
for n = 1:N % 产生 100 个 分 数值 
> =b+ (a - b)*random(’'’bino’,1l, 0.5) 
end 
fox kK S12iSteBssl 
村 
W. =>03 
UA = 0; 
UB” S00 
fOr: = .LRN 
p=1 + exp(((X(n) - A(k))^2 - (Xx(n) 
PpP = 1/p; % 为 A 等 生出 现 概率 
V=V + X(n)*p; 


+ random(’Normal’,do, 


- B(k))*2)/ (2*s2)); 


s2); 


27O EECS 应 用 概率 论 


W=W+ X(n)*(1 - p); 
UA = UA + p; 
UB + 1 工 - p; 


G 
leo) 
ll 


end 
A(k+1) = V/UA; 
B(k+1) = W/UB; 


end 
G = [A; B]; 
plot (G’) g 绘制 A 和 B 


当 样本 值 的 方差 很 大 时 ，SEM 聚 类 算法 无 法 收敛 到 真实 的 均值 . 


图 C-11 当 样 本 值 的 方差 很 大 时 ，SEM 聚 类 算法 无 法 收敛 到 真实 的 均值 


C.9 马尔 可 夫 决 策 过 程 


下 面 是 解决 11.4 节 中 “雇用 帮工 ”问题 的 代码 . 


g 雇用 一 个 帮工 
K = 20; 当 最 大 积压 量 
lambda 0.5; 多 到 达 率 


V 
7 
g = Zeros(1,N+1); 


fOr LK 
A 
(XL) 0 


for m = 2:N+1 
tO 区 丰 直 
A= (1- lambda)*(1 - mu)*V(x, m-1) 
+ lambda*(1 - mu)*V(min(x+1, K), m-1) 
+ (1 - lambda)*mu*xV (max (x-1,1),m-1) 


II.4 
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+ lambda*xmu*V (x, m-1); 
B = beta + (1 - lambda)*(1 - muxalpha)*V(x, m-1) 
+ lambda*(1 - mu*xalpha)*V (min(x+1, K), m-1) 
+ (1 - lambda)*mu*xalpha*V (max (x-1,1),m-1) 
+ lambda*xmu*alpha*V (x, m-1); 
% 无 顾问 
V(x, m) = x + min(A, B); 
if A >B 
a(X, A Es 
else 
a(lx,m) = 0; 
end 
end 
end 
ft NPL 
z = find(a(:,N+ 2 - m)); 
if isempty (z) 
om SKE 
else 
g(m) = min(z); 
end 
end 
plot (g) 
C.10 压缩 感知 
下 面 的 Matlab 代码 可 以 解决 10.3 节 中 基于 随机 采样 重建 信号 的 问题 . 


名 
五 


Index = 10000; % 设置 标 度 以 绘制 s(t) 和 重建 的 工人) 
N = 100; 当 样本 空间 大 小 
K = 15; % 样本 数 
s = Zeros(1,Index); % 信号 s(t) 
rr = S; 多 重建 的 信号 工人 七) 
Time = s; % 时 间 
phi = zeros(N,1);g% 所 有 频率 
x = Zeros (1,N); % 估计 系数 
T = zeros(1，K); % 样本 数量 
b = T; % 样本 
G = Zeros (K,N); % 函数 样本 
beq = zeros (K,1); % 采样 信号 
B = [1，2，3]; %8 s(t) 的 系数 
F = [1，1.2,，1.6]'; 名 s(t) 包含 的 频段 
b = zeros(2*N, 1); 
fo kL:K 
T(k) = rand(1); % 采样 时 间 


Bxsin(2*pixF*T(k)) ; % 


也 71 


10.3 
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G(k, n) = sin(2*xpix(n/10)*T(k)); % 9mnt K) 


[zeros (1, N), ones(1, N)] 
A= [leye(N), -eye(N); - eye(N) 
Aeq = [G,zeros(K,N)]; 


’ 
’ 


- eye(N)]; 


z = linprog (f,A,b,Aeq,beq); % 求解 线性 规划 问题 
Fe TN 


for I = .13TNdex 


Time (i) = i/Index; % 时 间 从 0 到 1 
s(i) = Bxsin(2*pi*F*Time(i)); % 信号 
r(i) = x*xsin(2*pi*phi*Time(i)); % 重建 的 信号 


end 


plot (Time,s,Time，r) % 绘制 信号 及 其 重建 信号 ( 蓝 色 ,绿色 ) 
C.11 参考 资料 


Matlab 附带 的 文件 系统 包含 很 多 内 容 . 网 上 也 有 很 多 可 以 参考 的 代码 . 
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